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INTRODUCTION 


Pour les vingt ans de la fondation Internet Archive, créée 
en 1996 et pionniére dans l'archivage du Web aux États-Unis, 
ainsi que pour les dix ans du dépót légal du Web en France, la 
Bibliothèque nationale de France (BnF) et l’Institut national de 
l'audiovisuel (Ina) coorganisaient en 2016 un colloque intitulé 
« Il était une fois dans le Web : 20 ans d'archives de l'internet 
en France ». S'il fallait conter l'épopée de l'archivage du Web, 
sans doute y croiserait-on quelques preux protagonistes partis 
en quéte d'un archivage du Web mondial ou exhaustif, des défis 
à affronter — humains, législatifs ou techniques — où cohabite- 
raient notamment captcha, robots.txt et droits d'auteurs, des 
issues heureuses aussi, tel le mariage prometteur de l'archive du 
Web et de la recherche. Roman chevaleresque, conte de fées, 
livre dont vous étes le héros ? Si sans doute l'archive du Web 
pourrait s'y préter, ce livre se contentera d'une mise en intrigue 
plus classique et d'initier le lecteur aux enjeux des archives et 
de l'archivage de la Toile. Il raconte l'archive de maniére prag- 
matique, en essayant de rendre palpable à la fois sa fabrique 
(technique, institutionnelle, juridique), les évolutions qu'a 
connues cet archivage en une vingtaine d'années et la relation 
que les acteurs de l'archivage du Web entretiennent avec les 
publics. Ce tour d'horizon ne serait pas complet sans s'inté- 
resser à la manière dont ces archives, outre leurs qualités patri- 
moniales, peuvent aujourd'hui étre exploitées par le monde de 
la recherche. Il sera donc question d'archivage, d'outils et de 
métadonnées, mais aussi d'héritage culturel, de géopolitique ou 
encore d'éthique, tant les enjeux qui touchent au patrimoine 
et à l'archive ne peuvent être dissociés d'enjeux de mémoire et 
d'histoire aux multiples parties prenantes. 

Organisé en quatre parties, notre propos suit l'archive du Web 
depuis sa naissance et sa conservation, dans les deux premières 
parties, jusqu'à son exploitation. 
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Lorsque l'on évoque l'archive du Web, il faut se figurer un 
objet singulier, interactif, fluide et non figé. Mais aussi une archive 
qui, bien qu'elle ressemble au Web du passé, n'en est pas la copie 
conforme et peut selon les fonds prendre des formes distinctes, 
enchássées dans des interfaces, supportées par des techniques qui 
livrent des résultats visuellement différents. L'exemple le plus 
évident, sur lequel nous reviendrons, est celui de l'archivage du 
réseau social numérique Twitter : ici les différences d'archivage 
entre les deux institutions frangaises en charge du dépot légal du 
Web en France, la BnF et l'Ina, sont visibles à l'œil nu. A la BnEles 
archives de Twitter s'apparentent à des captures d'écran, tandis que 
l'Ina a fait le choix d'une collecte fondée sur des données davan- 
tage brutes, sans capturer les images de fond. Mais au-delà, toute 
archive du Web véhicule des choix, des arbitrages. Ces choix ne 
sont pas seulement techniques, mais aussi profondément humains 
et sociétaux, voire politiques, ce qui est sans aucun doute le lot 
traditionnel d'autres types d'archives. 

Avec le patrimoine pléthorique du Web en cours de constitu- 
tion, outre la question de la masse (plus de 345 milliards de pages 
web archivées depuis 1996 par la fondation Internet Archive!) 
se pose la question de la collecte, largement automatisée. Car les 
archives du Web introduisent bien des ruptures, que ce soit dans 
la notion méme d'archive, ou dans les pratiques des archivistes et 
des chercheurs, méme si on peut également y voir des continuités, 
comme nous le montrerons. 

Automatisée, la collecte des archives du Web l'est à partir de 
périmétres négociés, et donc de choix humains. De cette curation, 
au moins initiale, dépend la représentativité de l'archivage, par elle 
se lit aussi l'inégale valeur accordée aux matériaux nativement 
numériques, archivés ou exclus de la collecte. Outillée au besoin, 
l'analyse des archives du Web l'est au service de questions posées 
par le chercheur, et là encore de choix humains. Ce sont aussi 
ces agentivités et interactions humaines et techniques que cet 
ouvrage propose de découvrir. 

Ce projet est né d'une double volonté collective : celle de pro- 
longer une initiative pensée avec Louise Merzeau quelques mois 


1. Voir https://archive.org/web/. 
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avant sa disparition, elle qui, dans les ateliers du DL Web Ina? 
avec Claude Mussou ou encore dans notre projet ANR Web90? 
et au fil de ses écrits, a tant fait pour penser, mais aussi pour 
faire connaitre l'archive du Web. Le désir également de partager 
notre « goüt » de l'archive du Web, alors que nous la prenons 
depuis plusieurs années comme source et objet d'étude. Nous 
espérons que cet ouvrage convaincra d'ailleurs le lecteur de 
considérer de maniére indissociable la création de l'archive et 
son analyse et qu'il lui fournira des clés pour cela. Et peut-étre 
sera-t-il méme tenté de reconsidérer ensuite avec un regard 
décalé d'autres archives que celles nativement numériques ? 


2. Voir le blog des ateliers: http://atelier-dlweb.fr/blog/. 
3. https://web90.hypotheses.org. 


DES ARCHIVES COMME 
LES AUTRES? 


Les discussions sur les archives du Web, en particulier quand 
elles ont lieu entre historiens, débouchent réguliérement sur 
la question de la rupture ou continuité de ces archives avec 
les précédentes. Et bien sûr la réponse n'est pas univoque. 
Certains éléments peuvent étre rapprochés de situations anté- 
rieures :les enjeux liés à l'exhaustivité et la représentativité des 
fonds ne sont pas nouveaux, comme ceux sur l'authenticité 
des documents ou sur l'outillage numérique de l'analyse (par 
exemple pour l'exploitation de séries statistiques ou de sources 
audiovisuelles). La masse et la surabondance documentaires 
sont connues de beaucoup d'historiens du contemporain, 
de méme que les « éphémères » pour ceux qui s'intéressent 
aux cultures vernaculaires ou aux tracts politiques. Toutefois, 
des différences certaines existent, qui peuvent méme inviter 
à remettre en question la pertinence de l'emploi de la notion 
d'archive. Si institutions et internautes parlent d'archives du 
Web, Bruno Bachimont (2017b) revenant sur l’organisation 
des traces dans le cadre de l'archive, de la bibliothéque et 
du centre de documentation y voit plutôt des collections. Il 
rappelle que l'archive, elle, est congue pour constituer « une 
preuve sur ce qui s'est passé » (ibid.) : «l'enjeu est de pouvoir 
conserver les documents permettant de renseigner, recons- 
tituer et prouver les activités de l'institution concernée, les 
événements auxquels elle a pris part. Aussi l'enjeu est-il de 
garder le plus possible le lien organique entre le document et 
l'activité qui l'a produit, pour que l'examen de l'effet qu'est 
l'archive permette de remonter à la cause qu'est l'événement » 
(ibid.). À l'inverse, « lorsque la constitution de l'ensemble 
documentaire obéit à une intentionnalité et un arbitraire lié 
non à la causalité de l'événement mais à la production des 
idées, on quitte le terrain de l'archive pour rejoindre celui de 
la bibliothéque » et donc celui des collections (ibid.). Inscrites 
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dans le monde des bibliothéques et dans le cadre d'un dépót 
légal qui conserve des ceuvres de l'esprit davantage que des 
traces d'activité, les archives du Web s'apparentent ainsi plus à 
des collections. L'archive du Web invite donc à (re)penser le rap- 
port du chercheur comme des professionnels de l'archivage et 
des bibliothéques aux données, aux documents, aux collections 
et aux archives. 

Aussi c'est en termes de patrimoine, de statut de ces fonds, 
mais également de contexte que les archives du Web sont pré- 
sentées dans cette première partie, qui ne pouvait manquer bien 
sür de s'ouvrir par leur courte mais déjà riche histoire. 


Une bréve histoire de l'archivage du Web 


On est bien entendu tenté de faire commencer l'histoire des 
archives du Web en 1996, avec la création de la fondation 
Internet Archive par Brewster Kahle'. Sans remonter en France 
à la création du dépôt légal sous François I" (1537), ou reprendre 
dans le détail une chronologie qui a vu aprés les imprimés son 
extension aux matériaux numériques tels les vidéogrammes 
et documents multimédias composites (1975), puis aux mul- 
timédias, logiciels et bases de données (1992) (Oury in Cohen 
et Verlaine, 2013), on pourrait aussi faire débuter cette his- 
toire en 1989. Pas seulement parce que c’est le moment où le 
Britannique Tim Berners-Lee commence à travailler au projet 
de ce qui deviendra le World Wide Web, qui connaitra dans la 
décennie 1990 une popularisation sans précédent, mais aussi 
parce qu'en 1989 Brewster Kahle invente un systéme de publi- 
cation sur Internet, le WAIS (Wide Area Information Server) 
et fonde WAIS Inc., qu'il revend à America Online (AOL) 
en 1995. L'année suivante, lancé dans la voie des technologies 
internet et web et fort de ce succés, il fonde Internet Archive et 
Alexa, entreprise qu'il vend à Amazon.com en 1999 : 


1. Au-delà de la portée symbolique du dixiéme anniversaire du DL Web et des 
20 ans d'Internet Archive, célébrés de concert par la BnF et l'Ina en 2016, le col- 
loque «Il était une fois dans le Web», organisé à cette occasion, offrait un regard 
rétrospectif mais aussi prospectif sur l'archivage du Web (dont certains éléments 
et témoignages peuvent étre retrouvés dans le carnet de recherche Web Corpora 
de la BnF: https://webcorpora.hypotheses.org/200#more-200). 
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« Ce qui n'était au départ qu'un simple projet de 
recherche va vite devenir une société basée à San 
Francisco, à l'origine dés juillet 1997 d'un outil com- 
mercial appelé Alexa. Cet outil permet de "butiner", 
rapatrier et indexer un nombre important de pages 
et de donner des indications sur leur fréquentation, 
le renouvellement, le nombre de liens, mais surtout 
il permet de donner accés aux versions précédentes 
des sites archivés par Internet Archive. » (Chaimbault, 
2008) 


Et méme si l'on fait commencer cette histoire en 1996, 
cette année ne se limite pas à la fondation d'Internet Archive. 
Trois autres initiatives émergent : une en Australie, une archive 
tasmanienne — également issue d'une initiative australienne —, 
et enfin Kulturarw3 en Suéde. Seules cing autres initiatives 
d’archivage du Web naitront dans les six années suivantes, 
avant que 2003 ne marque un décollage (Gomes et al., 2011). 
Mais déjà toutes ces initiatives donnent le ton de la diversité 
de l'archivage du Web : à « l'approche intégrale » d'Internet 
Archive qui se donne pour ambition d'archiver le Web mon- 
dial à ses débuts, répond une « approche exhaustive » de la part 
de la Bibliothéque royale de Suéde, qui cherche à conserver 
tout le .se?, tandis que l'Australie opte pour une « approche 
sélective ». Des « approches thématiques » ou encore « com- 
binées » viendront dans les années suivantes compléter cette 
typologie (Chaimbault, 2008), ce qui montre bien à quel point 
le périmétre d'archivage peut varier. Quant à la France, dés la 
fin des années 1990 elle s'intéresse à la question, sans toutefois 
entrer encore officiellement sur la scéne de l'archivage du Web. 

Le début des années 2000 est marqué par deux étapes 
majeures, en termes de conservation comme d'accessibilité. 
En 2001 nait la Wayback Machine? d'Internet Archive, porte 
d'accés en ligne aux archives de la fondation. Et en 2003 
une charte de l'Unesco sur la conservation du patrimoine 


2. Nom de domaine national de premier niveau de la Suede. 
3. Pour accéder à la Wayback Machine: https://archive.org/web/. 
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numérique” fait explicitement allusion au patrimoine nativement 
numérique. Mentionnant à deux reprises le born-digital heritage 
ou patrimoine « d'origine numérique » (article 1* et article 7), 
la charte le distingue du patrimoine numérisé en ce qu'il existe 
sous forme numérique dés son origine (c'est le cas des sites web, 
des bases de données, etc.), alors que le second a subi un processus 
de numérisation. Si la reconnaissance du patrimoine numérique 
— et notamment du patrimoine d'origine numérique — est à 
mettre en relation avec le développement important au cours 
du XXT siècle des communications en réseau, elle doit aussi être 
mise en lien avec des tendances qui depuis une vingtaine d'an- 
nées ont pu faire parler de véritable « explosion patrimoniale » 
(INora, 1996), diversifiant les objets reconnus comme faisant par- 
tie du patrimoine (notons, en 2003 également, la reconnaissance 
du patrimoine culturel immatériel, voir Severo et Cachat, 2017). 
La place croissante de la culture et de la mémoire techniques 
(Bouvier, Polino et Varaschin, 2010) ou encore la progressive 
patrimonialisation de la communication (Paloque-Bergès et 
Schafer, 2015) ont aussi joué un róle dans ce mouvement. 
L'année suivante, en 2004, est créé l'International Internet 
Preservation Consortium?. L'IIPC rassemble au départ 
12 membres, une cinquantaine aujourd'hui, soit une bonne 
partie des institutions qui se sont investies ces dernières années 
dans l'archivage du Web (voir la liste des initiatives d'archivage 
du Web rassemblées sur Wikipedia®). Les missions de l'IIPC sont 
dés l'origine de favoriser la collaboration internationale, mais des 
priorités peuvent ensuite étre distinguées au fil de ses presque 
quinze années d'existence. Aux réflexions sur la compatibilité des 
formats et une politique de normalisation fondée sur le format 
WARC ala fin des années 2000 ou l'adoption du modéle OAIS 
(Open Archival Information System) dédié à l'archive numé- 
rique, s'ajoutent depuis quelques années des réflexions sur le 
traitement des données sauvegardées et la manière d'assurer leur 
intégration dans les collections des bibliothéques (Gebeil, 2014). 
Car de la Bibliothéque royale du Danemark à la Bibliothéque 


4. Voir : http://portal.unesco.org/fr/ev.php-URL_ID=17721&URL_DO=DO_ 
TOPIC&URL_SECTION=201.html. 

5. Voir le site de l'IPC: http://netpreserve.org. 

6. https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives. 
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du Congrès aux Etats-Unis (Library of Congress, ou LoC), en 
passant par la British Library ou encore la BnE de nombreuses 
bibliothéques se sont investies dans l'archivage du Web. 

En France le dépót légal, à savoir « l'obligation pour tout 
éditeur, imprimeur, producteur, importateur de déposer chaque 
document qu'il édite, imprime, produit ou importe en France 
à la BnF ou auprès de l'organisme habilité à recevoir le dépôt 
en fonction de la nature du document’ » est élargi aux publi- 
cations sur Internet (sites institutionnels ou personnels, revues 
d'accés gratuit ou payant, blogs, sites commerciaux, plateformes 
de vidéos, etc.) depuis la loi du 1* août 2006 relative au droit 
d'auteur et aux droits voisins dans la société de l'information 
(DADVSI). Toutefois, contrairement au dépôt traditionnel, 
l'éditeur de contenu n'a pas à accomplir de démarche active 
de dépôt. En effet, ce sont la BnF et l'Ina qui se sont vu confier 
l'archivage du Web, dans le cadre de leurs périmétres respectifs. 
L'Ina conserve des contenus qui relèvent de l'audiovisuel, tandis 
que la BnF prend en charge « le reste » d'un ensemble qui ne 
se limite pas au .fr, mais intégre des extensions territoriales (par 
exemple le .re) et les contenus produits par des Francais ou des 
auteurs domiciliés en France, dont les adresses sont en .com, 
.org, etc. Prés de 4,5 millions de sites sont ainsi collectés par 
la BnF chaque année. D'autres pays ont adopté des mesures 
proches, faisant entrer les publications en ligne dans le cadre 
du dépót légal (en 2013 pour le Royaume-Uni, en 2017 pour 
toutes les publications numériques en Belgique). 

En outre, dans la décennie 2010 les réseaux socionumé- 
riques (RSN) commencent à susciter l'intérét et la Library 
of Congress passe un accord avec Twitter pour conserver les 
archives des tweets. L'Ina se met à collecter Twitter à partir de 
2014, toujours dans le cadre de son périmètre puisqu'il s'agit de 
suivre des comptes liés à l'audiovisuel et aux professionnels du 
secteur francais. L'année précédente, l'institut avait commencé 
la captation des radios web et dès 2010 celle des plateformes 
vidéos comme YouTube ou Dailymotion : dans un souci de 
cohérence et de continuité des collections, l'Ina cherche à 
suivre de prés les mutations des pratiques de diffusion mais 


7. Voir http://www.bnf.fr/en/professionnels/depot legal.html. 
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aussi de réception de l'audiovisuel. En effet, le développement 
de plateformes en ligne et celui de la participation aux réseaux 
socionumériques invitent à penser ces pratiques du « deuxiéme 
écran » et à suivre des contenus qui participent pleinement du 
périmètre audiovisuel. 

Chaque institution a ainsi des contraintes, enjeux, motivations 
spécifiques, mais aussi ses rythmes propres. La BnF distingue 
plusieurs étapes dans l’histoire de son archivage’ : la période 
1999-2004 ou le temps des expérimentations ; 2004-2007 ou la 
mise en place d'un « modèle intégré” », stabilisé juridiquement 
par la loi DADVSI ; et 2007-2012 avec la réalisation d'un cycle 
d’archivage complet. À ces trois périodes, on peut en ajouter 
une plus récente : dans le cadre de son projet WebCorpus, ins- 
crit au plan quadriennal de recherche 2016-2019, la BnF pense 
à élaborer un service de fourniture de corpus aux chercheurs 
(Moiraghi, 2018), mobilisant notamment des technologies de 
fouille de textes et de données, ainsi que de nouvelles possibilités 
d'exploitation des fichiers issus de la capture et de l'indexation 
automatiques des sites web. 


Le cas européen 


En France, l’État a, en créant le dépôt légal du Web, consacré 
la place d’un « tiers neutre qui garde la mémoire de ce qui est 
publié sur le Web sans en faire un objet commercial » (Oury 
in Cohen et Verlaine, 2013). Mais qu'en est-il des autres pays 
européens, et des institutions européennes elles-mémes ? 
Arquivo.pt, qui cherche à conserver le Web portugais et les 
informations publiques en ligne relatives à la communauté por- 
tugaise, compte actuellement plus de 100 000 utilisateurs, dont 
la moitié hors Portugal. Née en 2008, cette infrastructure est 
accessible en ligne, contrairement à d'autres fonds auxquels on 
ne peut accéder que depuis des bibliothéques ou sites dédiés 


8. Voir sur le site de la BnF:http://www.bnf.fr/fr/professionnels/archivage_ 
web. bnf/a.depot legal internet histoire.html. Voir également Aubry, 2010. 

9. «II s'agissait de réaliser conjointement des collectes larges, "aveugles", du 
domaine francais, conjuguées avec des collectées, plus profondes ou plus fré- 
quentes, de sites sélectionnés par des bibliothécaires » : http://www.bnf.fr/fr/ 
professionnels/archivage, web, bnf/a.depot, legal internet histoire.html. 
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aprés avoir recu une accréditation recherche. L'initiative a 
également une ambition de recherche, avec le développement 
d'outils et la publication de plusieurs dizaines d'articles en accés 
libre. La dimension de développement d’outils intégrés est éga- 
lement présente en Suède, où le programme Kulturarw3, qui 
existe depuis 1996, dispose de son propre systéme de stockage 
et d'accés. 

Le projet d'archivage du Web en Belgique est porté par une 
initiative de recherche — chapeautée par la Bibliothéque royale 
et les Archives nationales, avec la participation de plusieurs 
universités — et il est tout récent :le projet PROMISE" voit 
en effet le jour en 2017 et ceuvre actuellement à un pilote 
pour archiver le Web belge, sur la base d'une étude des bonnes 
pratiques dans d'autres pays. 

En miroir du cas français, l'archivage du Web aux Pays-Bas 
est assuré par deux institutions : la Koninklijke Bibliotheek, 
qui a une mission d'identification et de sauvegarde sélectives 
de sites néerlandais ayant une valeur culturelle et scientifique ; 
et l’Institut néerlandais du son et de la vision qui a débuté 
son investissement dans l'archivage en 2008 pour le périmétre 
audiovisuel. 

Selon les pays européens, l'amplitude et les critéres de la 
collecte des sites varient. Le cas espagnol est intéressant : les 
archives web de ce pays sont entretenues par la bibliothéque 
nationale avec la collaboration d'un réseau de bibliothéques 
régionales (une approche également adoptée par la Suisse) et 
sont le résultat d'un mélange de collectes inclusives et sélectives. 

D'autres pays adoptent également ce critére mixte : par 
exemple, en Finlande, la bibliothèque nationale conduit une 
collecte annuelle de tous les domaines .fi et des serveurs web 
qui se trouvent sur le territoire finlandais, mais au-delà de ces 
collectes, elle sélectionne manuellement des sites web qui lui 
semblent particuliérement pertinents (sites d'information, 
culturels, etc.). C'est également le cas du Luxembourg, qui 
conduit deux fois par an des collectes amples ainsi que des 
collectes plus sélectives, notamment à l'occasion d'événements 
particuliers, par exemple des élections. L'approche est la méme en 


10. https://promise.hypotheses.org/. 
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Croatie, qui a commencé en 2004 avec une collecte sélective, 
ensuite élargie à des collectes annuelles complétes du domaine 
.hr et des collectes thématiques ou/et liées à des événements 
« d'intérét national ». Au contraire, en Irlande, la bibliothéque 
nationale opte pour une approche uniquement sélective de 
sites « d'importance scientifique, culturelle et politique ». 

Un autre aspect qui varie selon les pays est la modalité d'acces 
aux archives du Web. Au Royaume-Uni, l'archivage du Web 
est du ressort à la fois de la British Library, dont une partie des 
collections est accessible en ligne (UK Web Archives) et des 
archives parlementaires, également en ligne". Si Arquivo.pt, cité 
précédemment, propose également ses ressources en ligne et en 
accès libre, comme l'Islande ou la Croatie, d'autres, pour des rai- 
sons notamment de droit d'auteur, proposent comme la BnF de 
limiter l'accés aux archives du Web à partir des lieux physiques 
de l'institution. C'est le cas de l'Allemagne, qui, au-delà d'une 
archive web réunie et hébergée par le Bundestag, dispose d'une 
archive qui résulte d'une collecte sélective, conduite par l'entre- 
prise oia GmbH, dont l'accés est restreint aux salles de lecture 
de la Bibliothéque nationale allemande. Dans certains cas, les 
modalités d'accés ont évolué : en Estonie, une première loi sur 
le dépót légal de 2006 a permis à la bibliothéque nationale de 
récupérer réguliérement une sélection de sites web nationaux, 
que cette dernière a d'abord rendus disponibles en libre accès ; 
cependant, une nouvelle loi de 2017 a rendu l'accés possible 
seulement avec la permission des ayants droit. Une loi sur le 
dépót légal régit également les collectes espagnoles, rendant les 
sélections de sites web disponibles pour le public « en observant 
les régles du droit d'auteur ». 

Au-delà de ces archivages nationaux, conscient de la valeur 
de ce patrimoine nativement numérique prompt à disparaitre 
ou changer, l'Office des publications européennes a débuté, 
en 2013, un archivage tourné vers les sites web d'agences et 
d'institutions européennes", dont la plupart sont hébergées par 
le domaine europa.eu. 


Tl. http://webarchive.parliament.uk. 
12. https://www.eui.eu/Research/HistoricalArchivesOfEU/WebsitesArchiveso- 
fEUInstitutions. 
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Une composante du patrimoine nativement 
numérique 


On peut parler de « patrimoine d'origine numérique » ou 
de « patrimoine nativement numérique », plus proche de 
l'expression « born-digital heritage ». Plus restreint que le patri- 
moine numérisé, qui s'étend aux ressources analogiques 
converties sous forme numérique, il embrasse les matériaux et 
formats produits initialement sous forme numérique, incluant 
« les textes, les bases de données, les images fixes et animées, 
l'audio, le graphisme, le logiciel et les pages web ». L'idée d'un 
« patrimoine d'origine numérique » comme nouveau legs de 
la mémoire mondiale est officiellement reconnue et stimu- 
lée par la charte de l'Unesco de 2003 sur la conservation du 
patrimoine numérique, qui s'inscrit dans la continuité du pro- 
gramme « Memory of the World » initié par l'Unesco en 1992. 
Cet acte de naissance du patrimoine nativement numérique 
est accompagné d'une double injonction. Tout d'abord, un 
appel à la coopération entre les différents corps professionnels, 
publics ou privés, spécialisés dans le numérique (développeurs 
de logiciel, créateurs, éditeurs, producteurs et distributeurs) et 
les institutions de préservation patrimoniale (bibliothéques, 
archives, musées, etc.). Ensuite, la reconnaissance de la priorité à 
donner à cet aspect spécifique, natif, du patrimoine nativement 
numérique, tout aussi bien en raison du caractére inédit de sa 
préservation que de l'urgence de sa collecte. 

Au-delà d'une liste de ressources types, que recouvre la réa- 
lité du patrimoine nativement numérique ? Il prend forme à 
la fois dans la préservation des technologies d'information, des 
objets numériques créés lors de leur utilisation, ainsi que de 
l'information que ces objets transportent, comme le définit Ken 
Thibodeau (Unesco, 2012). Les archives du Web sont en cela 
tributaires des limites sinon floues, du moins fluctuantes, entre 
ces trois dimensions. Le numéro que La Gazette des archives a 
consacré à « Archives et Internet » en 2007 (Verry, 2007) en 
témoigne : il présente des travaux aussi bien sur les sites web 
des institutions d'archivage (à la fois vecteurs d'information 
et interfaces de communication avec les publics), que sur la 
conception des outils, les usages ou le design d'expérience. 
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Le patrimoine de l'informatique a pavé la voie et contribue 
fondamentalement à la « fabrique du patrimoine numérique » 
(Musiani et Schafer, 2017), aussi bien au niveau matériel 
qu'immatériel. Les premières initiatives patrimoniales viennent 
de l'intérieur du domaine. En effet, elles sont déployées par 
les acteurs de terrain, premiers concernés par la préservation 
d'une mémoire professionnelle et/ou ludique des machines 
numériques. Aux associations d'anciens professionnels de 
l'informatique comme ACONIT (Association pour un 
conservatoire de l'informatique et de la télématique) ou la 
FEB (Fédération des équipes Bull) en France, se sont ajoutées 
des initiatives institutionnelles s'inscrivant dans une tradition 
muséale, avec des collections spéciales, comme au Musée des 
arts et métiers français, ou des établissements dédiés, comme 
le Computer History Museum aux États-Unis. En France, 
C'est l'Institut national de recherche en informatique (Inria) 
qui porte le grand projet d'une archive mondiale du logiciel, 
Software Heritage, destinée à préserver les codes sources. Des 
organisations clés dans le domaine de l'internet et du Web 
comme l'Internet Engineering Task Force (IETF) ou le World 
Wide Web Consortium (W3C) déploient trés tót une politique 
de valorisation et d'accessibilité aux archives nativement numé- 
riques pour documenter leur propre histoire, de leur contribu- 
tion scientifique et technique à Internet à leur participation à 
sa gouvernance — en particulier les forums électroniques qui 
ont permis de structurer leur travail collectif depuis plus de 
trente ans. En élargissant quelque peu la perspective, on doit 
aussi considérer les apports primordiaux des groupes et com- 
munautés d'amateurs d'informatique. Les collections d'Internet 
Archive leur font d'ailleurs une large place, incluant nombre de 
matériels et logiciels ayant marqué les premiéres générations 
d'utilisateurs dés les années 1980 — avec une forte présence, 
par exemple, de l'univers vidéo-ludique. L'Archive Team, orga- 
nisation de bénévoles formée en 2009, se spécialise, elle, dans 
la sauvegarde d'urgence de certains espaces de sociabilité en 
ligne ayant jalonné l'histoire culturelle du Web et aujourd'hui 
disparus, comme Geocities ou Friendster. 

La reconnaissance d'un patrimoine nativement numérique 
ne se limite pas aux intéréts de ces publics pionniers, malgré 
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leur róle indéniablement moteur. Le patrimoine nativement 
numérique suscite en particulier l'intérét réflexif des profession- 
nels du document pour l'évolution de leurs objets, matériaux 
et outils de travail. Cela peut expliquer la précoce inscription 
de la sauvegarde des archives nativement numériques dans les 
services de bibliothéques. Le sens de l'archive nativement numé- 
rique se pense d'abord fondamentalement, comme le souligne le 
chercheur Fabrice Papy, « entre bibliothéque et informatique » 
(Papy, 2015, p. 32). Les matériaux de l'archivage engagent les 
professionnels dans une réévaluation de leurs outils de travail et 
l'expérimentation de nouveaux dispositifs. Par exemple, les tech- 
niques de l'interopérabilité viennent répondre, à l'ére des réseaux 
hypertextuels, aux besoins traditionnels du monde documen- 
taire en matiére de standards pour mettre en forme, identifier, 
et communiquer des documents. L'analyse et le codage (par les 
langages et formats numériques) de données informatiques et 
en réseau répondent aux logiques de visibilité et d'accessibilité 
des contenus sur le Web, en permettant une nouvelle approche 
des métadonnées documentaires. Le développement de forma- 
tions pour les documentalistes du X XT siècle atteste ces nou- 
velles compétences d'analystes et de programmation, alliées aux 
sciences de l'information (Niu, 2012). Les archives du Web ne 
peuvent étre envisagées sans la mise en place de dispositifs expé- 
rimentaux en matière de logiciels et langages numériques. Ces 
derniers peuvent s'inspirer de travaux d'équipes de développeurs 
du Web, en adoptant, ou tout du moins en adaptant les langages 
et standards issus des entrepreneurs de l'informatique. Par 
exemple, le projet « 404 no more », collaboration entre Mozilla/ 
Firefox et la fondation Internet Archive, redirige automatique- 
ment vers les collections de cette derniére pour les pages dis- 
parues auxquelles on tente d'accéder par le navigateur Firefox. 
Des technologies similaires ont pu étre utilisées dans le projet 
Memento” développé à la Los Alamos National Laboratory 
Research Library. Dans la méme perspective, les logiciels 


13. Memento est une extension logicielle que l'on peut greffer à son navigateur, 
et qui permet de fouiller dans les différentes archives du Web qui acceptent 
d'afficher leurs données selon un protocole spécifique à Memento. Le but est de 
pouvoir afficher des anciens contenus comme s'ils étaient encore actifs. http:// 
mementoweb.org/about/. 
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développés par la fondation privée Internet Archive sont trés 
utilisés par les institutions patrimoniales dans l'archivage du 
Web, à commencer par le robot d'indexation" Heritrix, conçu 
dès 2003 pour l'archivage du Web en dialogue avec l'HPC. 

Il faut noter deux tournants majeurs dans la conception du 
patrimoine. D'une part, la progressive valorisation de l'infor- 
mation qu'il peut contenir : ce n'est plus seulement l'enjeu de 
la mémoire, mais cette dimension d'information qui est mise 
en avant (Unesco, 2012). D'autre part, la préservation, aux cótés 
des artefacts matériels, des artefacts immatériels ; et, aux côtés 
des monuments, de patrimoines de plus en plus diversifiés, 
notamment un patrimoine lié à la communication (Paloque- 
Bergès et Schafer, 2015). L'explosion des contenus et outils 
numériques crée tout autant l'espoir que l'anxiété. Cela découle 
du constat d'une numérisation exponentielle des activités 
humaines dans les pays industrialisés, et donc de celui d'une 
partie de plus en plus grande de l'héritage mondial, comme 
le reléve Wendy Hanamura de la fondation Internet Archive". 
Ce constat s'accompagne d'un sentiment d'urgence, largement 
légitimé par le programme « World Memory Heritage » de 
l'Unesco qui abrite des projets tels qu'« Archives at risk'^ » et 
qui, en 2012 déjà, rappelait le risque de perte d'autant plus 
grand que « le numérique est devenu le canal principal de la 
production et de la transmission de savoir » (Unesco, 2012). 
Cette anxiété est relayée par les professionnels de l'archive non 
seulement au niveau des pratiques, mais aussi des droits relatifs à 
la conservation des documents de mémoire. La mobilisation de 
l'association des archivistes français en 2013 contre des projets 
de lois européennes pour formaliser un droit à l'oubli numé- 
rique (mobilisation #EUdataP) fournit un exemple intéressant 
de débat public autour de ce probléme. 


14. Logiciel qui explore automatiquement le Web, afin de collecter des ressources 
et ensuite permettre à un moteur de recherche de les indexer. L'aspect « explo- 
ration» est souvent appelé crawling, d'oü le terme également de robot crawler. 
15. https://venturebeat.com/2015/10/22/the-internet-archive-is-rebuilding-the- 
wayback-machine-to-make-the-webs-history-easier-to-search/. 

16. Une initiative mondiale qui vise à sauvegarder les archives audiovisuelles 
menacées, en sensibilisant l'opinion, en encourageant les projets de coopération 
et en s'appuyant sur l'expertise et le soutien des principales organisations repré- 
sentant les archives audiovisuelles : http://archivesatrisk.com/about/. 
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En cela, la réflexion sur le patrimoine nativement numérique, 
et en son sein la question des archives, prépare le terrain à une 
future archéologie du savoir, qui étudierait les conditions de 
production des discours et du savoir au sein de dispositifs tech- 
niques et sociaux, comme y invitent les chercheurs en archéo- 
logie des médias" (Parikka, 2013). 


Les archives du Web entre rupture et continuité 


Il est évidemment tentant de penser les archives du Web avant 
tout en termes de rupture par rapport à des archives plus « tra- 
ditionnelles », que ce soit en raison de la masse de données 
accumulée ou encore de la difficile sélection : la collecte est 
automatisée, déléguée à des robots, bien qu'ils soient évidem- 
ment programmés par des acteurs humains. En archivant un 
mot-diése (hashtag) de Twitter, comme en programmant un 
robot pour les collectes hebdomadaires d'un site web de presse 
par exemple, rien ne garantit le contenu exact qui sera collecté. 
Bien sür le périmétre s'appuie sur un cadre législatif pour les 
dépóts légaux et les choix sont discutés au sein des institutions 
qui décident de la profondeur ou encore de la récurrence de 
la collecte d'un site. Mais le périmétre de la collecte est fixé a 
priori sans savoir exactement quel sera le contenu disponible 
au moment du passage du robot, ni la valeur des informations 
recueillies pour le présent et le futur. 

Notons d'ailleurs que cette collecte rompt aussi avec la tra- 
dition du dépót légal, ce que relevait Clément Oury à propos 
de « cette partie du dépót légal qui, contrairement à celui des 
imprimés, ne recoit pas de communication de la part des édi- 
teurs de contenu, mais élabore une cible documentaire, va à sa 
recherche suivant deux modes principaux de collecte : la col- 
lecte large, et les collectes ciblées » (in Cohen et Verlaine, 2013). 

Impossible de vérifier la qualité de chaque archive, de choisir 
précisément au quotidien, même pour une collecte ciblée (par 
exemple dédiée aux jeux Olympiques ou à des élections), le 


17. La définition de l'archéologie des médias, qui apparait au milieu des années 
1990 et interroge les temporalités et matérialités des médias, est débattue. 
Voir à ce propos: http://pamal.org/wiki/Archéologie des média. 
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contenu qui remontera au cours d'un processus « qui devient 
de plus en plus automatisé tant au niveau de l'indexation, de la 
conservation ou de la consultation » (Chaimbault, 2008). 

Ces éléments impactent les métiers des archives comme des 


bibliothéques : 


« Ces évolutions impliquent la définition de nouvelles 
compétences et de nouveaux profils de postes : par 
exemple, des "opérateurs numériques" capables d'ex- 
ploiter au quotidien les processus automatisés de col- 
lecte et de traitement, mais aussi des experts en mesure 
de superviser l'indexation à grande échelle des conte- 
nus et de gérer les risques propres à la préservation 
pérenne des documents numériques alors que les 
formats et les dispositifs de consultation évoluent et 
disparaissent trés vite. » (Game et Illien, 2006) 


Les adaptations ont été rapides comme le montre le récit 
vivant qu'en livre ci-dessous Gildas Illien, alors conservateur en 
chef du service du dépót légal numérique de la BnE ainsi que 
responsable technique et trésorier de l'HPC. 


« Les pionniers commencent à moissonner la Toile, 
généralement à titre expérimental, et saturent, dans 
l'euphorie des commencements, leurs premiers 
serveurs de test. Internet Archive, installée dans 

une petite maison en bois du parc du Presidio, à San 
Francisco, accueille en stage de jeunes ingénieurs 
fraîchement recrutés par les BN [bibliothèques 
nationales] d'Islande, du Danemark, de France ou 
d'Australie. Ceux-ci reviennent chez eux avec des 
photos oü on les voit boire des sodas et manger des 
pizzas tout en scrutant joyeusement des lignes de 
code et d'URL sur des écrans. Dans une ancienne 
mine du cercle polaire, à Mo i Rana, les Norvégiens 
installent leur première ferme de serveurs et partent à 
l'assaut de leur domaine national, le.no. En Islande, un 
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ingénieur de 25 ans capture et indexe à lui seul tout 
le Web national, mais ne fait pas cela à temps plein. 
On apprend sur le tas, on parle de données plutót 
que de collections. Les choses se font en masse et à la 
louche. Les partenaires de l'IIPC sont peu nombreux 
à proposer une consultation publique de ce qui 
s'apparente encore à une boite noire. l'urgence est 
alors de collecter, l'accès et la conservation de long 
terme ne sont pas identifiés comme des besoins 
immédiats. Si bien qu'il n'est pas rare de perdre ou 
de détruire des données qui, faute de loi, ne sont 
pas encore devenues inaliénables. Cette époque, 
profondément sympathique et créative, signe la 
rencontre du troisieme type entre les cadres de 
bibliothèques nationales multicentenaires et des 
ingénieurs fous. [...] 

Mais, début 2010, l'histoire du Web semble 
s'accélérer, poussant les institutions à élargir sans 
plus attendre les frontiéres de leurs interventions 
patrimoniales. [...] 

Au méme moment, la Bibliothèque du Congrès, la 
BnF et Internet Archive réalisent ensemble la collecte 
d'urgence d'un ensemble de sites relatifs au séisme 
en Haiti. Un an plus tard, elles renouvellent cette 
coopération spontanée, d'abord pour archiver les 
sites de WikiLeaks, puis, tres récemment, à l'occasion 
de la révolution du Jasmin en Tunisie et dans le 

reste de l'Afrique du Nord. Au risque de s'écarter 

de leurs missions initiales, elles laissent leurs robots 
s'aventurer dans des zones grises, sans territoire fixe. 
Car les bibliothèques du consortium ne peuvent plus 
ignorer des événements et des contenus numériques 
particulierement volatils documentant une future 
histoire du monde qui n'est pas réductible à la somme 
de leurs histoires nationales. [...] » 


Illien Gildas, « Une histoire politique de l'archivage 

du Web », Bulletin des bibliothéques de France (BBF), 
2011, n? 2, p. 60-68. Disponible en ligne : http://bbf. 
enssib.fr/consulter/bbf-2011-02-0060-012. ISSN 1292- 
8399. 
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La possibilité de jouer de l’interactivité et de l'hypertextualité 
des archives les rend également spéciales. Même si le parcours au 
sein de collections d'archives numérisées ou papier n'est pas for- 
cément linéaire, cette spécificité liée au Web est notable. Comme 
le rappellent Latzko- Toth et Proulx (in Barats, 2013), il faut 
prendre en compte les qualités documentaires de l'information 
en réseau, en termes de « recherchabilité », d'ubiquité, de persis- 
tance, de mutabilité et d'« invérifiabilité ». Si la « recherchabilité » 
de l'information lui permet d'étre trouvée par les moteurs de 
recherche ou de collecte, ce qui détermine l'accés à des données 
autrement pas ou peu visibles, une partie du Web échappe à la 
collecte, quand il est mal ou peu indexé, et ce volontairement 
ou non ;l'ubiquité d'une information copiable et diffusable 
pose aussi des défis : faut-il conserver la méme vidéo qui aurait 
été postée sur plusieurs plateformes vidéo et apparaitrait sur 
You'Tube et Dailymotion ? Le mouvement paradoxal de persis- 
tance comme de mutabilité rend les contenus à la fois instables 
et se double de la difficile vérifiabilité des acteurs (en cause 
l'anonymat et le pseudonymat, mais aussi la masse documentaire 
qui rend complexe un traitement fin, par exemple dans le cas 
de la collecte par l'Ina de 20 millions de tweets à la suite des 
événements du Bataclan, etc.). 

Malgré des singularités et des nouveautés, bien des questions 
que les archivistes ont dû auparavant affronter restent d'actualité. 
Par exemple la pratique des doublons, fréquents dans les archives 
du Web, n'est pas inconnue des services d'archives ; de méme les 
collectes d'urgence — à l'instar de celles effectuées au moment 
des attentats de 2015 par l'Ina et la BnF — ne relèvent pas d'une 
spécificité liée à l'éphémére du Web, méme s'il peut contribuer 
à en réactualiser les enjeux. En outre, d'autres éphéméres, maté- 
riels cette fois — tels les messages de réaction aux attentats, de 
commémorations ou encore les offrandes aux victimes déposées 
dans plusieurs villes de France — ont été collectés par le passé, 
notamment par des archives municipales (Bazin, 2017). La col- 
lecte des éphéméres ne commence donc pas avec le patrimoine 
nativement numérique : 


« Ce principe de constitution de sources primaires 
n'est pas, explique Clément Oury, pour [la BnF] une 
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nouveauté : ses agents recueillent depuis le XTX" siècle 
le matériel de propagande électorale (tracts, affiches). » 
(Oury in Cohen et Verlaine, 2013) 


Les chercheurs retrouvent aussi des problématiques connues 
qui touchent autant à la question de l'authenticité que de 
l'auctorialité par exemple, car bien des sites sont le résultat 
de productions souvent collectives, parfois externalisées, etc. 
Plus généralement, les archives du Web rendent complexes la 
critique interne, mais aussi externe des documents. 

Or, pour comprendre pourquoi, et ainsi rendre ces archives 
exploitables,le chercheur ne peut faire l'économie de la com- 
préhension de la fabrique de l'archive. 


OU COMMENCE ET 
S'ARRÉTE L'ARCHIVE? 


La plupart des institutions de collecte des archives du Web 
livrent en ligne un apercu des périmétres et choix de collecte, 
à l'instar de la BnF! qui distingue des collectes larges et des col- 
lectes ciblées. Par ailleurs, les chercheurs ont le souci d'essayer 
de documenter ces sélections et leurs évolutions, que ce soit 
en ouvrant les boites noires de l'archivage (Schafer, Musiani et 
Borelli, 2016) ou en suivant les traces visibles que ces archives 
livrent (voir Ben-David et Amram, 2018, sur le Web archivé 
nord-coréen). 

En effet non seulement les institutions, quand elles s'inscrivent 
dans un cadre juridique fixé, doivent faire porter leurs efforts sur 
un périmètre défini de sites web, mais aussi mettre en place une 
stratégie de collecte (en termes de récurrence, de profondeur 
de l'archivage des sites, de participation ou pas des internautes, 
etc.) qui va avoir un impact direct sur la représentativité de ces 
archives. En outre, des barrières à l'archivage peuvent apparaitre, 
notamment pour des raisons techniques (captcha, mots de passe), 
tandis que les réseaux socionumériques, qui feront plus tard 
l'objet d'un éclairage spécifique, renouvellent les questions de 
sélection et de capture. Autant d'éléments à découvrir dans cette 
partie pour tracer les contours de l'archive, qui peuvent varier 
d'une organisation à une autre, d'un site à l'autre, d'un réseau 
socionumérique (RSN) à l'autre... 


Des archivages en constante évolution 


Une archive du Web est loin d’être un objet statique? : elle évo- 
lue sous l'effet des modalités de collecte, de la profondeur de 


1. Voir sur le site de la BnF: http://www.bnf.fr/fr/professionnels/archivage web - 
bnf/a.dlweb, collecte acces libre.html. 
2. Cette section reprend des éléments de Schafer, Musiani et Borelli, 2016. 
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l'exploration, ainsi que des changements techniques — et, bien 
sür, des modéles et paradigmes qui sous-tendent l'archivage. 

Lors de l'assemblée générale de l'International Internet 
Preservation Consortium (IIPC) de 2014, Louise Merzeau 
soulignait à quel point, malgré l'histoire jusqu'ici bréve de 
l'archivage du Web, on avait déjà pu assister à plusieurs chan- 
gements aux conséquences de taille pour les archives. Au 
cours des années 1990, avec la naissance d'Internet Archive, 
l'archivage du Web suivait un « modéle documentaire » dont 
l'objectif était un archivage universel, inspiré par les modèles 
traditionnels et tout particuliérement celui de la bibliothéque. 
Ensuite, au début des années 2000, ce modèle fut brièvement 
remplacé par une logique davantage tournée vers les enjeux 
de mémoire. Une troisiéme phase mit l'accent sur les aspects 
de préservation systématique, une sorte de « congélation » à un 
instant T qui consistait à sauvegarder chaque élément du corpus, 
piéce par piéce, en un archivage qui, à défaut d'étre exhaustif, 
se voulait représentatif. Enfin, depuis la fin des années 2000, les 
archives du Web sont construites selon une logique d'« archive 
temporelle », qui cherche à capturer entiérement l'instabilité du 
Web — en développant des méthodes d'archivage dynamiques, 
tout comme le Web est dynamique. L’instabilité, qui avait été 
considérée comme un dysfonctionnement contingent à l'objet, 
est de plus en plus perçue comme une de ses caractéristiques 
essentielles : 


« Paradoxalement, l'instabilité qui caractérise les flux 
d'information ne constitue donc pas un obstacle à leur 
mémorisation, mais plutót une condition, entrainant 
de nouvelles procédures de sédimentation mémorielle. 
Parce qu'ils sont instables, les contenus doivent étre 
dédoublés par une information sur l'information, 
qui anticipe, optimise et instruit leur mobilisation. 
Les métadonnées désormais associées à tout mes- 
sage ne décrivent pas seulement les énoncés : elles 
en permettent la segmentation, la distribution et la 
recomposition, chaque fragment du flux devenant une 
mémoire activable à volonté, pointant vers d'autres 
fragments. » (Merzeau, 2012) 
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RÉCOLTER LES MÉTADONNÉES 

« Parmi les éléments de la collecte des documents, il 
convient de ne pas oublier de récolter les informations 
sur les pages web, à savoir ce qu'on appelle les 
métadonnées des documents. Une métadonnée 

est littéralement une donnée sur une donnée ; 

plus précisément, c'est un ensemble structuré 
d'informations décrivant une ressource quelconque. 
Le recueil des métadonnées doit pouvoir fournir des 
données sur le contexte technique et historique de la 
collecte d'une part et du document d'autre part. Les 
métadonnées fournissent ainsi des renseignements 
sur le nom du document, sa date de création, de mise 
à jour, son environnement technique, celui nécessaire 
pour lire le document (standards d'encodage), leur 
compatibilité (les standards - les protocoles évoluant, 
il conviendra d'assurer des migrations réguliéres en 
termes de supports de stockage, de langages ou de 
formats) ; la composition de la page (texte, image, 
son...), des informations juridiques, etc. » 


Chaimbault, 2008 : 
http://www.enssib.fr/bibliotheque-numerique/ 
documents/1730-l-archivage-du-web.pdf. 


Avec cette attention particuliére prétée aux variations du 
Web « vivant », le Web archivé s'éloigne progressivement de 
l'idée d'une restitution et permet, comme le pointe Louise 
Merzeau, de passer d'un fragment à l'autre sans étre contraint 
notamment par la chronologie des flux. Il nécessite donc une 
compréhension de plus en plus fine des coulisses du stockage et 
de la circulation des flux d'information (Merzeau, 2014). 

Le chercheur Niels Ole Finneman (2015), plaçant au cœur 
de ses travaux ces questions de temporalité et d'intelligibilité, 
remarque que tous les corpus d'archives web répondent à trois 
dimensions temporelles : le contenu original, son accumula- 
tion et ses transformations, et enfin l'exploration de l'archive 
par le spécialiste. Ce dernier devient partie intégrante de 


34 | QU'EST-CE QU'UNE ARCHIVE DU WEB ? 


l'intelligibilité des contenus : inscrit dans sa propre époque, il 
peut introduire des biais, contribuant ainsi à une lecture nostal- 
gique ou présentiste (Schafer, 2015). 

Comme le souligne Niels Brügger (2012), un autre aspect 
trés important réside dans le fait que le processus d'archivage du 
Web crée une série de versions uniques d'un contenu : on n'est 
presque jamais en train de, tout simplement, « faire une copie ». 
Des éléments peuvent étre perdus (par exemple une image, un 
bandeau) et autre chose, qui n'était pas en ligne à cet instant T, 
peut étre archivé avec le contenu (par exemple un calendrier 
anachronique, récupéré d'une page antérieure”). Ce qui peut 
rendre complexe de savoir avec certitude à quoi ressemblait 
effectivement une partie du Web en ligne à un moment spéci- 
fique : chaque archive web est une reconstruction (Ankerson, 
2015b). 

Plusieurs raisons concourent à expliquer ce phénoméne. La 
première est la profondeur de la collecte et de la capture. Trés 
souvent, les sites web ne sont archivés que partiellement, car le 
robot crawler est programmé pour les capturer seulement à pro- 
fondeur de quelques clics. Les utilisateurs se trouvent régulière- 
ment face à des pages web manquantes ou non trouvées, mais 
l'effort porte sur la volonté de capturer des échantillons vastes 
et représentatifs du Web contemporain dans sa diversité, malgré 
la « superficialité » que cela entraine. Par exemple, en France, 
les collectes larges de la BnF privilégient la quantité ; or, si les 
4 millions et demi de sites web collectés dans une année avec ce 
systéme sont trés rarement préservés dans leur intégralité, c'est 
aussi le cas de leurs pages web qui sont souvent incompletes ; 
des éléments tels que les publicités, les pop-up et les bannières 
sont souvent bloqués avant la collecte. Cela entraine l'omission 
d'une partie intéressante et importante du patrimoine nati- 
vement numérique, avec laquelle les utilisateurs du Web ont 
fréquemment un rapport problématique, voire conflictuel, mais 
qui reste une illustration importante des modèles d'affaires et 
des stratégies de communication des firmes numériques, basés 
sur l'économie de l'attention (Kessous, 2012). 


3. Cela explique certaines inconsistances qui peuvent surgir lorsqu'on navigue 
dans le Web archivé - par exemple, quand un widget « calendrier » montre une 
date différente par rapport à la date de collecte de la page web. 
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Les polices et caractéres peuvent aussi différer dans les 
archives du Web par rapport aux pages originelles ; si au 
moment de l'archivage la police d'une page web n'était pas ins- 
crite explicitement dans son code source originel, mais plutót 
utilisée par défaut, ce sont les paramétres établis par défaut par 
le navigateur dans sa version actuelle qui figurent sur la page 
archivée. 

Enfin, la collecte et la sauvegarde des images peuvent poser 
probléme dans ce paysage mouvant : plusieurs pages web des 
années 1990, désormais archivées, montrent des trous béants là 
où étaient autrefois leurs images. La raison de ce phénomène 
est à rechercher autant dans la difficulté technique de la capture, 
que dans « l'impatience » des robots et dans les objectifs de la 
collecte à l'époque : Internet Archive était liée à l'entreprise 
Alexa de Brewster Kahle, une firme qui avait pour objectif de 
classifier et d'indexer les sites web plutót que de préserver les 
images. Aujourd'hui toutefois, afin d'éviter les doublons, ces 
derniéres ne sont pas systématiquement recollectées. 

Le chercheur doit donc prendre en compte ces aspects : 
l'archive du Web n'est pas une copie parfaite de l'état de la Toile, 
ou méme de la page, à un instant T (Brügger, 2012b ; Schafer, 
Musiani et Borelli, 2016). Certains contenus d'une page ne sont 
pas forcément archivés (les publicités ou les commentaires par 
exemple?, d'autres ont été récupérés de versions antérieures 
(logos, calendrier) : il faut considérer la page moins comme une 
unité qu'un ensemble d'éléments, qui peuvent étre collectés 
séparément : 


« Si l'on considére ainsi qu'en moyenne, une page web 
contient une quinzaine de liens vers d'autres pages, et 
environ cinq objets d'origines diverses (sons, images, 
code, films...), la description technique d'une page 
demeure ambigué et floue. » (Chaimbault, 2008) 


4. Ainsi, depuis 2010, l'outil UGC et une plateforme de captation des vidéos 
ont été développés à l'Ina pour archiver les vidéos présentes par exemple sur 
YouTube et Dailymotion. Mais les commentaires échappent (pour l'instant) à la 
collecte. 
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En outre, les pages sont reliées les unes aux autres par des 
reconstitutions de liens hypertextuels qui peuvent introduire 
des sauts temporels entre deux pages archivées à des dates 
différentes, etc. Comparant l'archive du Web à une « archive 
traditionnelle », Bruno Bachimont peut ainsi noter : 


« Pour une archive traditionnelle, l'enjeu est de 
conserver un document comme produit d'une acti- 
vité donnée, dont il est alors une trace probatoire, 
permettant de renseigner sur la nature de l’activité, de 
prouver les événements associés. Il est donc essentiel, 
pour entamer son exploitation, de s'assurer que le 
document est bien le "bon", c'est-à-dire qu'il est bien 
ce qu'il prétend étre : il doit étre "authentique". [...] 
Lauthenticité repose sur l'intégrité. 


Pour une archive du Web, ce raisonnement ne peut 
plus tenir. En effet, l'archive du web n'est pas le web, 
l'archive d'un site n'est pas le site archivé. La raison 
essentielle tient à la nature méme des contenus et des 
procédures de collecte : en particulier, la durée de cap- 
tation étant supérieure au rythme de mise à jour du 
site, l'archive résultant de la collecte rassemble en fait 
des parties de site renvoyant à des temps ou époques 
différents du site : une partie correspondant au site au 
temps t^, une autre au temps t! aprés une mise à jour, 
etc. Bref, le site archivé n'a jamais existé comme tel 


dans le Web. » (Bachimont, 20173) 


Des méthodes alternatives émergent pour la recherche. Les 
digital forensics, ainsi, s'intéressent à la reconstitution de docu- 
ments critiques à travers les données de navigation, les courriers 
électroniques, l'historique des recherches, etc. (Kirschenbaum 
et al., 2010). La diplomatique numérique, elle, propose de 
contextualiser la valeur du document (Chabin, 2012). Toutes 
deux viennent tenter de répondre aux interrogations tradition- 
nelles que ces archives numériques renouvellent : comment 
dater, authentifier un document, combler les lacunes, retrou- 
ver le contexte, équilibrer les caractéres externes (matériels) 
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et internes (cohérence des textes) des sources, ou encore 
évaluer le rapport entre échantillon et tout, singularité et 
représentativité. 

Le recours à la philologie que suggère Niels Brügger, pour 
comparer les différentes versions d’une page web, témoigne 
également de ce que les recherches ne s’orientent pas forcé- 
ment vers des méthodologies en rupture, mais peuvent faire 
appel à des pratiques antérieures, tout en invitant à les renou- 
veler, les adapter : 


« C’est un déplacement considérable auquel nous 
assistons. Il nous faut donc inventer une nouvelle 
herméneutique, celle de la trace collectée, hermé- 
neutique à laquelle nous sommes fort peu prépa- 
rés. Éduqués en maîtres du soupçon pour établir 
l’authenticité, nous sommes peu versés dans l’art 
d’exploiter des archives qui sont par essence fautives 
et incomplètes mais néanmoins fiables et exploitables 
[...] > (Bachimont, 2017a) 


Le périmétre de l'archive du Web 


Le regard que l'on porte sur l'archive, dans une certaine 
mesure, définit son périmétre. C'est le cas pour le regard des 
chercheurs, l'un des premiers publics d'usagers de l'archive 
du Web. L'analyse de sites web a donné lieu à de riches 
réflexions méthodologiques et épistémologiques (voir par 
exemple Barats, 2013), mais qui ont tendu à effleurer la ques- 
tion de l'archive du Web sans, jusqu'à récemment, la prendre 
en charge frontalement. Niels Brügger a lancé une nouvelle 
dynamique en 2009, en dessinant les contours d'un usage de 
l'archive web par les chercheurs (Brügger, 2009 ; 2011) à par- 
tir d'éléments distincts : l’objet web (par exemple une image 
insérée dans une page web), la page web, le site web, la sphére 
web (un ensemble de pages web liées par une thématique), 
le Web dans son ensemble (ses normes, ses standards, ses ins- 
titutions, ses technologies, etc.). Ainsi, les différents niveaux, 
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formats et éléments documentaires concernés par l'archivage 

(textes, images, sons, vidéos, graphismes, bases de données, logiciels, 

codes...) entrent dans un périmétre plus ou moins cohérent selon 

la manière dont on les analyse. 

Toutefois, le regard du chercheur est cadré, bien que non limité, 
par les dispositifs mis en place par les professionnels de l'archivage 
numérique en général et du Web en particulier. Jinfang Niu a 
proposé dés 2012 une vue d'ensemble des enjeux de l'archivage 
du Web, défini comme le « processus de récolte et de stockage de 
données enregistrées sur le World Wide Web, de leur conservation 
sous la forme d'une archive, et de leur mise en accessibilité pour 
des recherches futures » (Niu, 2012). 

Pour Niu, ce périmétre peut étre décrit par les processus de 
travail de cet archivage, qui passent par : 

* l'évaluation et la sélection, qui méme dans le cas de collections 
non discriminantes des contenus se font forcément sur la base 
de critéres. Par exemple, pour Internet Archive qui a priori ne 
trie pas sa récolte, c'est essentiellement le « Web de surface » 
(indexé par les moteurs de recherche) qui est concerné. Les 
collections institutionnelles sont plus sélectives, sur la base de 
critéres géographiques, thématiques, événementiels (comme 
dans le cas des périodes électorales, ou des crises terroristes), 
ou encore génériques (selon le type ou le format de média). 
Cette sélection est plus ou moins automatisée ou manuelle, 
plus ou moins programmée à l'avance ou ouverte à l'inter- 
vention (formulaires d'enregistrement, recommandations. ..). 
L'évaluation de la valeur peut reposer sur des méthodes trés 
différentes : alors que la NARA (National Archives and Re- 
cords Administration) américaine évalue la valeur d'un site 
individuel, la BnF préfère la représentativité (toutes les pages 
web francaises sans distinction de qualité), et le service des 
archives web de l'université nationale de Taiwan a recours à 
l'échantillonnage ; 

* l'acquisition : si la tradition institutionnelle de dons et de 
dépóts est toujours d'actualité, l'archivage du Web a donné 
lieu à des méthodes originales, comme l'indexation de réseau 
(crawling) qui récolte les contenus par le biais du suivi d'hyper- 
liens. La question des permissions se pose à cette étape, sauf en 
cas de mandat gouvernemental (en particulier le dépót légal, 
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comme en France, en Nouvelle-Zélande, aux États-Unis 

ou encore au Royaume-Uni) ou de mise en place de 

clauses de retrait (solutions opt out, comme chez Internet 

Archive) ; 

* l'organisation et le stockage : ceux-ci doivent préserver 
l'intégrité du contenu, en donnant des informations sur 
l'origine (de la source de l'enregistrement à son adresse en 
tant que document vivant) et l'ordonnancement (l'agen- 
cement au sein de la structure des archives) ; 

* la description : les métadonnées décrivant les archives 
sont générées automatiquement lors de l'indexation (par 
exemple la signature temporelle de la récolte, la taille, le 
format, etc.) ou bien induites à partir d'une extraction des 
métadonnées du code des pages d'origine ; 

* l'accés et l'utilisation : ils sont déterminés par le contexte 
légal de l'archive du Web, avec une tendance à la restric- 
tion sur le modèle des « dark archives », qu'on ne peut 
consulter qu'in situ « à l'ombre » des bibliothéques, par 
opposition aux archives ouvertes (Smit, van der Hoeven 
et Giaretta, 2011). Les potentialités de la recherche re- 
posent sur la richesse des métadonnées de description, des 
outils d'indexation et des choix d'interface. 

Pour les professionnels, le cahier des charges d'un projet 
d'archivage du Web résume ces problématiques en cinq 
recommandations formulées par l'IIPC Preservation Working 
Group : la mise en place d'objectifs à but juridique et/ou 
scientifique ;l'évaluation des possibilités et contraintes légales ; 
l'approche raisonnée de la création de collections selon des 
critères ; l'identification des problèmes de mise en collection 
(techniques et organisationnels) ; la stratégie de conservation 
à long terme (métadonnées, formats. ..). 

De nombreuses contraintes limitent le périmétre des 
archives du Web, notamment pour les institutions contraintes 
par le droit d'auteur. Internet Archive, qui próne une poli- 
tique de numérisation massive, revendique une responsabilité 
civique dans l'accessibilité publique aux contenus, quitte à 
contourner ce que la fondation considére comme des bar- 
rières fixées par l'économie et le droit de l'édition et des 
archives, par exemple l'application de mesures techniques de 
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protection du droit d'auteur trop contraignantes — telles que 
les DRM. Le périmètre de ses archives en est d'autant plus 
élargi, avec une ambition non départie d'idéaux universalistes 
(Paloque-Bergés, 2014). C'est aussi l'approche de beaucoup 
d'organisations non institutionnelles, fondations privées, jeunes 
entreprises ou initiatives individuelles, qui étendent le péri- 
métre de l'archive du Web aux activités culturelles sur Internet, 
dans une logique d'auto-archivage des productions indivi- 
duelles. Par exemple, le Google Cultural Institute produit des 
outils accompagnant les utilisateurs dans la création de galeries 
de vie numérique sur leurs sites web personnels. Récusant le 
vocabulaire des professionnels du patrimoine, comme « com- 
missaire d'exposition numérique », il encourage le « mariage du 
professionnel et de l'amateur » dans le domaine de la conser- 
vation numérique. Ces approches exogènes aux institutions du 
patrimoine invitent à interroger la maniére dont le numérique 
altére la perception de ce qu'est un document, une archive, ou 
encore une collection, au sens technique, mais aussi culturel 
et social. Concernant les contraintes limitant le périmétre de 
l'archivage, les collections de blogs ont aussi retenu l'attention, 
de par les problémes qu'ils posent en termes de droit d'auteur 
et de la personne, de responsabilité d'hébergement, de filtrage 
et d'éditorialisation des informations, de frontiéres floues entre 
production professionnelle et amateur, de limites labiles entre 
contenu d'auteur et commentaires du public, etc. Des projets 
spécifiques ont été mis en place pour les prendre en charge, 
comme BlogForever, projet collaboratif collectant, conservant, 
administrant et réutilisant des archives de blogs, financé par la 
Commission européenne*. 

Il apparaît donc, comme le rappellent Sarah Atkinson et Sarah 
Whatley (2015), que les archives numériques doivent étre mises 
en perspective avec l'espace public numérique. L'utilisateur et 
le public jouent un róle dans la construction du périmétre de 
l'archive, favorisant les pratiques de l'archivage collaboratif et 
ouvert. 


5. Digital Rights Management (gestion des droits numériques). 
6. Pour en savoir plus, consulter: https://cordis.europa.eu/project/rcn/98063_ 
fr.html. 
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L'archivage des réseaux socionumériques, quelles 
spécificités ? 


Si l'archivage du Web a bénéficié de l'initiative précoce de 
Brewster Kahle, le paysage numérique et ses usages ont pro- 
fondément changé depuis 1996, notamment avec l'arrivée des 
réseaux socionumériques (RSN), fondés sur des dispositifs de 
flux. Ainsi Frédéric Clavert (20182) note à propos de Twitter 
que « collecter des tweets, notamment, via une API, c'est trans- 
former un flux constant en archive figée. La notion de source, 
flux originel intarissable, n'a jamais été une métaphore aussi 
actuelle ». Les RSN proposent par ailleurs des modalités de par- 
ticipation et d’accés, qui peuvent rendre l'archivage complexe : 
identifiants et mots de passe, statuts privés ou semi-publics 
des contenus, usages de protocoles spécifiques, notamment 
concernant les vidéos, encapsulage de liens contenant des 
URLs parfois réduites, etc. Les contenus des RSN ne sont donc 
pas toujours aisément accessibles ou/et faciles à collecter, sans 
compter les changements de protocoles ou de politiques uti- 
lisateurs qu'ils introduisent fréquemment. Comme le rappelait 
Annick Le Follic, alors chargée de collections numériques au 
département du dépót légal de la BnE dans un entretien le 21 
mars 2016 : 


« La limite de notre archivage des réseaux sociaux est 
technique : ces plateformes changent souvent de tech- 
nologies et de paramètres, donc il nous faut donner à 
chaque fois une instruction manuelle à Heritrix pour 
qu'il capture bien les contenus qui nous intéressent. En 
particulier, les protocoles https? nous posent parfois des 
problémes, tout comme Facebook lorsqu'il utilisait des 


"captcha". » 


7. Robot d'indexation utilisé par la BnF mais aussi par Internet Archive: https:// 
webarchive.jira.com/wiki/spaces/Heritrix. 

8. Protocole web sécurisé. 

9. Entretien mené par M. Borelli et V. Schafer dans le cadre du projet ASAP, 21 
mars 2016: https://asap.hypotheses.org/168. 


42 | QU'EST-CE QU'UNE ARCHIVE DU WEB ? 


Les RSN n'en demeurent pas moins des témoins et supports 
de nos vies numériques, qui ne pouvaient rester en dehors de 
la réflexion sur l'archivage du Web. 

La Bibliothèque du Congrès (LoC) aux États-Unis a ainsi 
passé un accord en 2010 avec l'entreprise Twitter pour récu- 
pérer tous les tweets émis depuis 2006 et poursuivre cette 
conservation. Reste qu'à ce jour cette collection n'est pas 
encore accessible pour les chercheurs et souléve diverses ques- 
tions, amenant méme la LoC à revenir sur son projet d'ex- 
haustivité pour se concentrer sur un périmètre plus restreint 
et sélectif de collecte'?. En effet, les outils disponibles pour 
faire des recherches dans ces fonds gigantesques sont un enjeu 
majeur (le nombre de tweets journalier est passé selon la LoC 
de 140 millions début février 2010 à 500 millions par jour en 
octobre 2012). Dans un document de janvier 2013, intitulé 
« Update on the Twitter Archive At the Library of Congress"! », 
la bibliothéque notait ainsi que réaliser une recherche sur la 
période 2006-2010 pouvait prendre 24 heures, et elle faisait 
le constat que les technologies disponibles pour accéder à ces 
données n'étaient pas encore aussi avancées que celles permet- 
tant de les collecter. 

Bien sür l'accord entre la bibliothéque étasunienne et 
l'entreprise Twitter pose également la question des modalités 
concrètes d'accés à ces archives : leur accessibilité pour des 
chercheurs par exemple européens impliquera-t-elle de devoir 
venir à la LoC ? 

Des initiatives européennes ont aussi été engagées, mais avec 
des périmétres plus restreints, appuyés par exemple en France 
sur le cadre du dépót légal du Web. La collecte de Twitter par 
la BnF et l'Ina apporte des éléments complémentaires à une 
réflexion sur le patrimoine des RSN. 

Tout d'abord, si la BnF et l'Ina archivent une partie de 
Twitter, elles n'ignorent pas les autres RSN, mais peuvent 


10. Voir l'article de The Verge du 26 décembre 2017, « The Library of Congress 
will no longer archive every tweet »: 
https://www.theverge.com/2017/12/26/16819748/library-of-congress-twitter- 
archive-project-stalled. 

11. Library of Congress, «Update on the Twitter Archive at the Library of 
Congress », décembre 2017: https://blogs.loc.gov/loc/files/2017/12/2017 dec . 
twitter white-paper.pdf. 
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rencontrer plus de difficultés pour les collecter. Les deux 
institutions ont davantage archivé Twitter que Facebook par 
exemple, car les contenus de Facebook ne sont pas tous publics, 
outre les difficultés techniques précédemment évoquées. Et 
pourtant les Francais sont davantage présents sur Facebook et 
la diversité sociologique y est mieux représentée". 

Comme pour le Web, le périmétre de collecte est aussi 
sélectif pour les RSN. Si l'Ina a pris la mesure de l'intérét de 
l'archivage de Twitter et lancé des collectes dés 2014, l'équipe 
dédiée au DL Web le fait dans le cadre de son périmétre lié 
à l'audiovisuel : elle suit ainsi les comptes d'acteurs clés du 
monde audiovisuel frangais, soit environ 13 000 utilisateurs et 
400 hashtags. 

Son expérience s'est aussi manifestée lors des attentats 
de 2015, au moment ot des millions de tweets ont réagi 
aux événements autour de Charlie Hebdo puis à ceux de 
novembre 2015 (suscitant aussi la réactivité des chercheurs 
qui ont également trés rapidement lancé des collectes de ces 
tweets"). 

Comme le note Zeynep Pehlivan (DL Web Ina) qui revient 
sur cet archivage réalisé en urgence : 


« Nous avons poursuivi les collectes sur les attentats 
après 2015, par exemple à Nice à lété 2016. Nous 
avons aussi des archives relevant d'attentats qui ont eu 
lieu en Europe, à Bruxelles, Londres ou Manchester. 
En effet s'ils ne se sont pas passés en France, ils ont 
été profondément relayés par les médias français et 
sont entrés rapidement dans les trends [principales 
tendances de mots-clés sur Twitter] de Twitter, car les 
Français ont réagi. Ces tweets font partie intégrante 
du contexte médiatique et permettent en outre au 
chercheur de mettre en perspective les tweets de 
notre cœur de corpus du dépôt légal. Par contre, on 


12. Pour un apercu des chiffres, voir: 
https://www.blogdumoderateur.com/50-chiffres-medias-sociaux-2018/. 

13. C'est le cas de la collecte de Romain Badouard qui sert de base a sa réflexion 
sur le «Je ne suis pas Charlie» (Badouard, 2016), de celle du canadien Nick Ruest, 
dont les données sont accessibles en ligne, ou encore de celles de Giglietto et 
Lee (2015). 
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ne fait pas des collectes pour tous les attentats dans le 
monde, seulement pour ceux qui ont un écho fort en 
France, en particulier dans le monde de l'audiovisuel, 
qui est notre périmétre dans le cadre du dépót légal du 
Web". » 


L'Ina a pleinement conscience de l'intérét de démarrer tót 
la collecte, de ne pas rater le pic de tweets ou la montée d'un 
« mot-diése » (des mots-clés précédés d'un signe #, appelé hashtag, 
permettant d’étiqueter les tweets). 


« Or le service est fermé la nuit ou le week-end. Aussi 
nous avons décidé d’archiver dorénavant automati- 
quement les principaux trends en France. Nous avons 
ainsi une veille automatique complémentaire, méme 
en dehors des heures d’ouverture, sur des mots-diéses 
qui montent et sont en général portés ou repris dans les 
médias. Aujourd’hui les journalistes aussi participent et 
suivent en effet Twitter et ces mouvements? », ajoute 
Zeynep Pehlivan. 


Si l'aspect des archives du Web peut changer d'une institution 
à une autre, le cas de Twitter est particuliérement révélateur, 
comme nous l'avons mentionné en introduction : la BnF uti- 
lise le robot de capture Heritrix et obtient des résultats proches 
d'une capture d'écran, tandis que l'Ina passe par PAPI (interface 
de programmation) publique de Twitter et ne capte pas les images 
de fond. Il est possible de récupérer a posteriori les données de 
Twitter de facon payante :les deux interfaces de programmation, 
API Search et Streaming par lesquelles passe l'Ina, sont gratuites 
et publiques. La premiére permet à un utilisateur de remonter 
à un contenu particulier sur les sept derniers jours, tandis que 
la seconde permet de capter un flux au fur et à mesure pour 
une requête précise. Mais l'API publique a des limites : on ne 


14. Entretien réalisé par Valérie Schafer fin 2017 dans le cadre d'un article dédié 
au patrimoine nativement numérique des attentats en Europe pour un dossier 
de la Gazette des archives (n? 250) coordonné par Maélle Bazin et Marie van 
Eeckenrode. 

15. Ibid. 
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peut collecter plus de 1 % du total des tweets émis au plan 
mondial à un instant T. Cette limite a notamment été dépassée 
au moment du pic de flux lié aux attentats parisiens, et méme 
les 20 millions de tweets conservés par l'Ina sur les événements 
du Bataclan ne constituent donc pas une collecte exhaustive 
de ce qui s'est dit sur Twitter autour du 13 novembre 2015. 
Ajoutons que la collecte dépend des mots-diéses sélectionnés 
et que certains peuvent échapper à l'archivage qui se fait en 
urgence. D'autres biais ou limites ne peuvent étre ignorés du 
chercheur : par exemple le nombre de retweets (republication 
de tweets par un autre usager) d'un message s'arréte à la date de 
l'archivage du tweet, impliquant donc de sérieuses précautions 
sur l'interprétation de cette donnée. 

Reste qu'au-delà de ces limites, le volume archivé au 
moment des attentats parisiens est tel qu'il peut étre consi- 
déré comme représentatif, à défaut d'étre exhaustif, d'autant 
que l'Ina s'applique à documenter sa collecte en intégrant 
notamment des informations sur les données manquantes, en 
archivant les messages signalant une restriction dans la collecte, 
etc. Évidemment, il faut souligner une autre limite à la repré- 
sentativité, mais qui ne dépend pas de la collecte :les publics de 
ces plateformes sont spécifiques « comme le sont les lecteurs de 
journaux ou les tenants de la conversation de bistrot. Mais ces 
traces peuvent sous certaines conditions donner accés à certains 
processus qu'on ne pouvait chiffrer jusqu'ici » (Boullier, 2015). 


Les barrières, limites, verrous à l'archivage 


Déjà évoquées, la disparition des pages web, la volatilité des 
contenus et l'évolution générale des réseaux sont les limites 
fondamentales rencontrées par l'archivage du Web. En 2013, la 
durée de vie moyenne d'une URL est de 9,3 ans ; celles qui ne 
survivent pas entretiennent le « link rot » (la décomposition des 
liens). Un « lien mort » est d'autant plus dommageable qu'il a 
pu servir de référence, voire de garantie institutionnelle, comme 
en a témoigné l'affaire des articles disparus de la Cour supréme 
américaine révélée par le New York Times en 2013 — on parle 
alors de « reference rot ». Les liens et contenus web s'évanouissent 
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au gré de la fermeture d'hébergeurs ou de plateformes, de la 
réorganisation de l'architecture d'un site, ou parce qu'un auteur 
a tout simplement choisi de supprimer un contenu, voire 
d'effacer complétement sa présence numérique, ce que l'on 
surnomme « infosuicide ». 

Le Web peut également, tout en restant bien vivant, résister 
à l'archivage. Pour des raisons techniques, tout d'abord, dans la 
mesure où il peut être difficile pour les dispositifs d'archivage 
automatique de capturer des contenus et objets mis en forme 
par des technologies non prises en charge par le dispositif ou 
obsolétes. Suivant une logique de flux,le Web dynamique tend à 
encapsuler des contenus hébergés ailleurs, une page n'étant que 
de plus en plus rarement une unité homogène. Ainsi, ces dispo- 
sitifs peuvent avoir tendance à reconstituer des pages « à trous ». 
Par exemple, le langage JavaScript permettant l'encapsulation 
de contenu a été l'un des premiers obstacles au moissonnage de 
données web par Heritrix, produisant des archives de pages web 
qui sont des coquilles vides. L'enchássement de plusieurs types 
de logiciels de gestion de contenu et la superposition de plu- 
sieurs couches de code peuvent également compliquer la tache 
d'une collecte numérique. C'est le cas de la republication ou 
de l'administration de forums internet, notamment des groupes 
Usenet : parfois mal gérés par leurs administrateurs, difficiles 
à naviguer, impossibles à collecter, ils tendent à devenir des 
«ruines numériques » sur le Web (Paloque-Bergès, 2018 ; 2017). 

Des barriéres plus proactives peuvent étre mises en place par 
les hébergeurs, les administrateurs et les auteurs. Le probléme du 
verrouillage par mot de passe est un classique, que l'on retrouve 
de maniére généralisée sur les plateformes de réseaux sociaux. 
Le recours à un code contractuel est également une technique 
ancienne, comme dans le cas du robot.txt, une formule insérée 
dans le code source d'une page web par son créateur. Cette 
technique « a pour but principal de permettre à un éditeur 
d'exclure certains de ses documents du champ d'action des 
agents logiciels appelés "crawlers" utilisés par les moteurs de 
recherche pour prendre connaissance des documents » (Sire, 
2015, p. 188). 

Toutefois, comme l'analyse Guillaume Sire, ce contrat de 
code repose sur un consensus léonin, c'est-à-dire régi par des 
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rapports de force déséquilibrés. Google peut choisir de passer 
outre ce protocole tout comme certaines institutions d'archi- 
vage du Web, ces derniéres en vertu des modalités du dépót 
légal (Niu, 2012). 


Pour les archives du Web, comme pour nombre 
d'autres artefacts techniques qui peuplent l'internet, 
un certain nombre de barriéres, limites et verrous à 
l'archivage prend forme lorsque l'infrastructure de 
l'internet, du matériel au logiciel, joue un róle social 
et politique dans leur « fabrique », notamment à des 
niveaux micro et parfois triviaux (Cheniti, 2009). 
Nous prendrons ici deux exemples qui ont trait aux 
contributions volontaires des internautes à l'archivage 
du Web". 

En janvier 2015, Andrew Bontrager, un utilisateur 
des services de la fondation américaine Internet 


Archive, commente un changement sur les conditions 


d'utilisation : 

« ...from your terms of use: 

"...Further, you agree not to recirculate your password 
to other people." 

This is a hardship. 

I had previously done this because | didn't realize you 
had the provision there. 

Sometimes, | want to contribute a large file to the 
archive, but my internet connection is slow or limited 
by a data plan. In those instances, | have to give my 
credentials to another worker so he can do it for me. 
Thus, I’m asking an exemption” ». 

Et quand l'Archive Team se présente, elle esquisse les 


16. Voir aussi https://webcorpora.hypotheses.org/460. 

17. «Tiré de vos conditions d'utilisation: "De plus, vous étes d'accord pour ne pas 
rediffuser votre mot de passe à des tiers". C'est une grosse contrainte. Je l'avais 
déjà fait, car je n'avais pas réalisé que vous aviez cette disposition. Parfois, je 
souhaite ajouter un gros fichier à l'archive, mais ma connexion internet est lente, 
ou j'ai un baréme pour l'échange des données. Dans ces cas, je dois donner mes 
identifiants à un autre travailleur pour qu'il puisse le faire pour moi. Donc, je 
demande à étre exempté.» (Notre traduction.) 
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profils et les types de contributions qui lui seraient 
utiles ainsi : 

« This project is composed of volunteers, currently 
coordinated by Jason Scott. 

If you're wondering where to stick your nose in, we 
could use: 

Warriors, You will run the Archive Team Warrior on any 
PC's you have with spare bandwidth. [...] 

Writers, who can create clear essays and instructions 
for archivists and concerned parties. 

People with Lots of Hosted Disk Space who have a 
proper hosted webserver and fat pipe, who are willing 
(when asked) to consider hosting mirrored dead sites 
or archives. [...]'? ». 

Deux exemples donc, ayant trait, le premier, à 

une démarche collaborative de contribution là 

oü les conditions techniques ne permettent pas 

à l'individu de contribuer seul, le deuxieme à une 
hiérarchie de contributeurs établie sur la base des 
ressources techniques de stockage et réseautage à 
leur disposition. Les deux montrent bien comment 
les contributions voient s'établir des limites non 
seulement par la volonté et l'organisation humaines, 
mais également par des facteurs tels que la 

rapidité d'une connexion internet ou la possibilité 
d'y accéder de facon constante, la présence de 

« goulots d'étranglement » qui rendent impossible 
l'archivage de pages protégées par mot de passe, 

la capacité à mettre en ceuvre une táche partagée 

au moyen de différents outils et protocoles et de 
leur interopérabilité, ou encore la disponibilité de 
ressources techniques de stockage ou de mémoire et 
leur ouverture à la communauté. 


18. «Ce projet est composé de volontaires, qui sont actuellement coordonnés par 
Jason Scott. Si vous vous demandez oü fourrer votre nez, on aurait besoin de: 
Guerriers, vous ferez tourner le Guerrier de l'Archive Team sur tout ordinateur à 
votre disposition qui a de la bande passante non utilisée; Écrivains, qui peuvent 
écrire des essais et des instructions clairs pour les archivistes et autres tiers; 
Gens avec Beaucoup d'Espace Disque, qui font tourner un web serveur et ont 
de gros tuyaux, et qui sont disponibles, quand on leur demande, pour héberger 
des miroirs de sites web qui ne sont plus maintenus, ou des archives. » (Notre 
traduction.) 
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« Link rot », « reference rot », « infosuicide », « digital 
ruins » : autant d'images d'un Web en décomposition, 
dont la logique entre pourtant dans ce que l'archéo- 
logie des médias appelle les « médias zombie », ot 
l'information ne meurt jamais tout à fait, car elle 
survit sous une forme ou une autre (Chun, 2011). 
De fait, ce dépérissement stimule la résilience. Ainsi, 
Tim Berners-Lee lui-méme a été l'un des promo- 
teurs les plus actifs de techniques de liens pérennes 
au sein du monde des développeurs web, derrière le 
slogan « Cool URIs”? don't change ». 


Des enjeux de gouvernance 


En 1980, le philosophe et sociologue Langdon Winner se 
demandait dans un article qui a fait école : « Est-ce que les 
artefacts sont politiques ? » (Do artifacts have politics ?). Winner 
pose la question de la neutralité technologique et recherche 
en se penchant sur les objets techniques les « arrangements de 
pouvoir et d'autorité dans les associations humaines, ainsi que 
les activités qui se passent à l'intérieur de ces arrangements » 
(Winner, 1980, p. 123). Si l’on souhaite appliquer cette 
hypothése aux archives du Web, il s'agit de comprendre en 
quoi dans l'archivage du Web existent des formes spécifiques 
d'autorité et de pouvoir (Denardis, 2014) qui dessinent une 
sorte de microcosme de la gouvernance d'Internet". 
L'archivage du Web repose sur un modèle multi-parties 
prenantes. Une variété d'acteurs est concernée : des fon- 
dations comme Internet Archive ; des organisations trans- 
nationales, à commencer par l'HPC ; la société civile (des 
membres de l’Archive Team à d'autres initiatives fondées par 
des communautés de chercheurs) ; et enfin le secteur privé 


19. Les URIs (Uniform Resource Identifiers) sont les identifiants qui complètent 
les URLs (Uniforme Resource Locators) pour la composition et la reconnaissance 
des pages web. 

20. Cette démarche a occupé certains de nos travaux récents (Schafer et al., 
2016; Musiani et Schafer, 2019) sur lesquels cette section se fonde. 
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(par exemple, Google, qui s'est impliqué dans la conservation 
du patrimoine numérique natif en rendant disponible un 
certain nombre de groupes du forum numérique Usenet ; 
Paloque-Bergès, 2017). Ainsi, on retrouve dans l'archivage 
du Web les principales catégories d'acteurs impliqués dans 
la gouvernance d'Internet, leurs tensions, mais aussi leurs 
alliances. Des expériences de collaboration entre des insti- 
tutions d'archivage et des équipes de recherche voient de 
la sorte régulièrement le jour ; la BnF a par exemple associé 
notre équipe Web90?! à une réflexion sur l'implémentation 
de la recherche en plein texte dans les archives web des 
années 1990 et, à un niveau plus global, le réseau RESAW” 
associe des chercheurs et des professionnels de l'archivage. 
Internet Archive va encore plus loin en promouvant explici- 
tement des initiatives bottom-up [du bas vers le haut] destinées 
à revaloriser l'intervention humaine. 

L'archivage du Web n'échappe cependant pas à des ten- 
sions ayant trait à la standardisation, un des enjeux tradi- 
tionnellement le plus vif de la gouvernance d'Internet, et 
à des visions et imaginaires divergents, des communs aux 
formats propriétaires. Nous avons ainsi évoqué la mission de 
la BnE menée dans le respect de la propriété intellectuelle 
et la protection des données personnelles qui contraste avec 
la mission « universelle » que s'est assignée l'Archive Team, 
fondée sur la disponibilité des ressources informatiques et 
le souhait, de la part des utilisateurs, de les partager. Dans le 
premier cas, on voit en partie le poids d'un héritage histo- 
rique et des questions de souveraineté liées au dépót légal ; 
et, dans le second, le lien direct entre la capacité technique et 
l'archivage effectué. 

L'archivage du Web révèle également la présence de 
tensions géopolitiques, illustrées par le blocage d'Internet 
Archive par la Chine (Kahle, 2014b) ou encore par l'appel 
de Brewster Kahle, à la suite de la victoire électorale de 


21. De 2014 à 2018 ce projet, financé par l'Agence nationale de la recherche et 
auquel ont contribué les auteurs de l'ouvrage, a exploré l'histoire, la mémoire, le 
patrimoine du Web des années 1990 en France : https://web90.hypotheses.org. 
22. Réseau de recherche européen, RESAW signifie A Research Infrastructure 
for the Study of Archived Web Materials. || a été établi en 2012 à l'initiative de 
Niels Brügger: http://resaw.eu/about/. 
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Donald Trump, à un financement participatif pour créer par 
précaution une copie compléte des collections numériques de 
l'Internet Archive hors des États-Unis. 

On retrouve aussi des dynamiques qui rappellent le pro- 
bléme de la fracture numérique : la présence des pays en voie 
de développement dans le Web archivé n'est aucunement 
proportionnelle à leur présence croissante au sein du Web 
vivant (Gomes et al., 2011). Un certain nombre d'associations 
régionales se proposent d'épauler l'action globale de l'IIPC 
et de faire office de « sous-forums » pour coordonner le 
transfert de compétences pratiques — des initiatives se déve- 
loppent notamment dans le sud-ouest de l'Asie. Cependant, 
1l existe encore des régions du monde qui restent largement 
« non archivées », en particulier en Inde, en Amérique latine 
et en Afrique. Comme l'expose la conférence « The Memory 
of the World in the Digital Age » (Unesco, 2012), parmi les 
problémes élémentaires de l'archivage numérique se trouve la 
simple absence de ressources techniques, légales et financiéres. 
Pour pallier le risque de perdre des ressources culturelles, 
politiques et sociales importantes, des institutions « du Nord » 
ont entrepris de préserver certaines d'entre elles (par exemple, 
l'université d'Heidelberg effectue une collecte du Web socio- 
politique chinois) ; mais à long terme une réponse durable 
devra résider dans le développement d'initiatives locales. 

On retrouve dans l'archivage du Web la relation complexe 
entre différentes pratiques et sources d'autorité ou de nor- 
mativité, de la technologie au marché, de la concertation 
transnationale et internationale aux standards et aux droits. 
Cette pluralité a déjà été identifiée pour la gouvernance 
d'Internet (Bygrave et Bing, 2009 ; Badouard et al., 2013). 
Le « sauvetage » de Geocities opéré par l'Archive Team suite 
à la fermeture de la plateforme d'hébergement de pages per- 
sonnelles par Yahoo!, les collectes d'archives et de données 
privées par Twitter et Facebook, le dépót légal dans plusieurs 
pays, la charte de l'Unesco, l'action de standardisation de 
l'IPC : ces différents instruments de gouvernance coexistent 
et se superposent partiellement. L’archivage du Web réactive 
donc les mémes polarisations, négociations et dynamiques 
qui avaient émergé lors de la naissance de la gouvernance 
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d'Internet, notamment avec le Sommet mondial sur la société 
de l'information en 2003 et 2005 (Working Group on Internet 
Governance, 2005). 


COMMENT NAVIGUER 
DANS L'ARCHIVE ? 


L'archive du Web cherche à reproduire l'interactivité qui 
existait au sein du Web vivant en permettant de cliquer sur 
les liens et de naviguer dans la Toile. Elle présente toutefois 
des caractéristiques en termes de temporalités, d'interfaces, 
de granularité, d'accompagnement des données par des 
métadonnées, qui rendent explicite le fait que l'archive du 
Web n'est pas une copie à l'identique du Web au moment de 
son archivage. Naviguer dans la Toile du passé implique donc 
des défis et des précautions théoriques comme pratiques, qui 
interrogent au final la possibilité de repenser ce Web du passé 
en contexte. 


Les temporalités de l'archive du Web 


La question des temporalités est probablement l'un des 
enjeux les plus aigus en matière d'exploitation des corpus 
conservés. L'archive du Web est instable et signe la « fin de la 
matérialité documentaire » par le rassemblement de docu- 
ments « modulables et mobiles », en contradiction avec la 
vision traditionnelle de l'archivage dont la fonction serait de 
« figer et [de] stabiliser ». Aussi, l'archive en ligne est marquée 
du sceau d'une « temporalité bréve qui s'accorde mal avec le 
temps de la recherche historique » (Gebeil, 2016). 

S'il ne faut pas minimiser les difficultés posées, il s'agit sur- 
tout d'acclimater les pratiques de recherche à de nouveaux 
régimes de temporalité, dont l'archive hérite du Web lui- 
méme!. Serge Noiret nous avertissait en 2011 : 


1. Voir l'ouvrage collectif Temps et temporalités du Web, Presses universitaires 
de Paris Ouest, Paris, 2018, issu du colloque éponyme organisé à l'Institut des 
sciences de la communication du CNRS en décembre 2015. 
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« le digital turn [tournant numérique] a rendu précaire 
un certain nombre de concepts chers aux historiens 
comme celui de la pérennité des sources et la capa- 
cité de reproduire dans le temps une analyse qui s'y 
réfère. » (Noiret, 2011) 


Comme Joe Chip, le héros plongé en pleine régression tem- 
porelle dans Ubik de Philip K. Dick (1969), les utilisateurs de 
l'archive du Web sont soumis à des régimes chronologiques 
nouveaux. En premier lieu parce que la sauvegarde d'un site 
aux mises à jour fréquentes se heurte à l'impossibilité d'une 
captation totale des données qui le composent : toutes les 
modifications et ajouts ne peuvent pas étre archivés (Mussou, 
2012). Ainsi, les archives du site tf1.fr entre 1996 et 2000 dans 
Internet Archive donnent à voir un corpus réalisé au travers 
de 18 collectes successives. Pour l'année 1997, ce sont trois 
captations qui permettent de consulter le site de la premiére 
chaîne. À la BnF, les collectes portent sur plusieurs millions de 
sites archivés depuis 2011 à des fréquences variables, d'« une 
fois par semaine » à « une fois par an », associées à des « collectes 
projet » autour d'un sujet particulier". Dans ce cadre, aucune 
garantie n'existe sur la possibilité de retrouver un site dans son 
état initial à une date donnée (Brügger, 20122), chaque état 
étant le patchwork des modifications intervenues depuis la 
derniére captation. 

Dans le cadre d'une navigation entre les sites, l'archive du 
Web doit étre traitée comme un pavage discontinu de couches 
temporelles différentes : la page du Monde dans la Wayback 
Machine du 21 février 1999 renvoie par le lien « Nouvelles 
technologies » à celle du 8 février 1999 (Schafer et Thierry, 
2015). L'image du réseau donnée par l'archive est temporelle- 
ment désaccordée. 

A Véchelle de la page et de ses ressources (images, liens, 
fichiers embarqués divers...), un temps désarticulé est éga- 
lement à l’œuvre : certains contenus d'une page ne sont pas 
archivés (les publicités ou les commentaires lorsqu'ils sont 


2. Voir http://www.bnf.fr/fr/collections, et services/anx pres/a.collectes . 
ciblees, arch, internet.html. 
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permis par exemple sur les sites de la presse en ligne) ou 
recollectés, comme évoqué précédemment. Ce dédoublon- 
nage des ressources conduit par exemple à trouver le logo 
endeuillé de noir du CNRS sur la page d'accueil du site 
captée en aout 2015 par la BnF alors qu'il a été mis en place 
suite aux attentats de novembre 2015... Des fonctionnali- 
tés récemment introduites dans certaines archives du Web 
peuvent toutefois permettre d'identifier la date de collecte 
de chaque élément d'une page web archivée par rapport aux 
autres qui composent cette méme page, rendant désormais 
visibles et explicites ces patchworks temporels’. 

Enfin, la page web archivée elle-même, en tant qu'espace 
d'affichage ou contenant informationnel, ne comporte pas 
forcément de date de création, pas de date de modification, 
mais seulement une date d'archivage, ce qui rend l'analyse 
diachronique hasardeuse : 


« there remains a question of the documents timestamps: 
The timestamp of the snapshot of a past version of a 
URL is that of the date of archiving, not necessarily the 
last updated date of that URL [...] To solve this problem, 
researchers usually aggregate the archived URLs per year, 
which results in an approximation of an historical hyper- 
link network with a large margin of error. » (Ben-David 
et Huurdeman, 2014) 


A la contrainte des régimes de temporalités désaccor- 
dés qu'impose l'archivage s'ajoutent les décalages entre les 


3. Voir par exemple dans le cas d'Internet Archive, le billet posté sur leur blog le 
5octobre 2017 par Mark Graham "Wayback Machine Playback... now with Times- 
tamps!": https://blog.archive.org/2017/10/05/wayback-machine-playback-now- 
with-timestamps/. 

4. «Une question reste en suspens à propos de l'«horodatage» des documents: 
I'« horodatage » d'une ancienne version d'une URL archivée est l'xhorodatage » 
qui correspond à son moment d'archivage, pas nécessairement celui de la der- 
nière mise à jour de cette URL [...] Pour résoudre ce probléme, les chercheurs 
agrégent les URLs archivées par année ce qui crée un réseau de liens avec une 
large marge d'erreur dans les dates utilisées.» (Notre traduction.) La question de 
la datation est également sensible dans la thése de Quentin Lobbé (2018) sous 
la direction de Pierre Senellart et Dana Diminescu. Se fondant sur la notion de 
«fragment Web », il explore la possibilité de retrouver sa date d'édition et non 
la seule date d'archivage. 
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temporalités en ligne et hors-ligne. Comme le rappelle Clément 
Oury dans le domaine des sites politiques, une fois le scrutin 
achevé, on observe une rapide disparition des pages utilisées 
pendant la campagne, notamment sous l'effet des recomposi- 
tions plus ou moins rapides du paysage politique : 


« On a vu, notamment au lendemain du premier tour 
des élections régionales de 2010, des candidats fermer 
définitivement leur blog lorsqu'ils ralliaient une liste 
d'union. » (Oury, 2012) 


Pendant la seule campagne pour les élections législatives de 
2007, la moitié des sites créés pour l'occasion avait disparu cinq 
mois plus tard. 

À l'inverse, comme le souligne Claude Mussou (Ina), 
l'archive du Web se constitue au fil de l'eau, à mesure que le 
corpus s'alimente par sédimentations successives, les collectes 
s'ajoutant les unes aux autres (Mussou, 2012). 

En outre,le hors-ligne pilote en partie l'archive du Web : face 
aux attentats qui ont frappé la France et en particulier Charlie 
Hebdo en 2015, la BnF comme l'Ina ont choisi de mener des 
collectes d'urgence. 

Les nouveaux régimes de temporalités de l'archive en ligne 
nous poussent probablement à rompre avec le confort que 
comporte l’utilisation d'archives datées et précisément identi- 
fiées que l'époque contemporaine nous avait habitués à utiliser. 
"Toutefois les collégues spécialistes de périodes plus reculées et 
moins prolixes en documentation écrite ont déjà affronté des 
questions semblables. D'un regard vers le passé peut naitre une 
manière d'envisager l'avenir, fut-il numérique. 


Interaction et interactivité avec l'archive du Web 


L'exploration des archives du Web implique en outre de se 
soumettre à un régime d'interactivité porté par les interfaces et 
services qui mettent à disposition du chercheur les masses de 
données préservées. 
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Intimement liées à l'esprit du projet initialement conqu par 
Brewster Kahle à la fin des années 1990,1es archives du Web 
proposent une expérience trés proche de celle de la navigation 
en ligne, progressivement enrichie par de nouvelles fonctions 
(recherche en plein texte, API diverses, etc.) qui s'adaptent à 
un enrichissement des corpus, particuliérement avec l'entrée 
des réseaux socionumériques dans l'orbite de la conservation. 

Comme elle avait pesé sur la mise en images et en mots 
d'Internet, la bibliothéque continue d'étre une référence 
incontournable pour penser l'archive du Web. En 2011 
Brewster Kahle rappelait son ambition de faire d'Internet 
Archive « une bibliothéque numérique » dont la « visée [est] 
à la fois sociale et technologique » et qui permet un « accés 
universel à l'ensemble de la connaissance : tous les livres, toute 
la musique, toutes les vidéos, accessibles partout, par tous » 
(Kahle, 20142). C'est cette vision qui l'habite depuis l'origine 
du projet tel qu'il le décrit en 1997 dans American Scientific 
(Kahle, 1997). 

Cette vision explique qu'en 2001, quand nait la Wayback 
Machine? qui permet l'accés aux ressources d'Internet 
Archive, les sites et leurs pages constituent l'unité de base de la 
consultation. Internet Archive contient des sites comme une 
bibliothéque contient des livres. 

Encore aujourd'hui, l'entrée principale dans l'archive se fait 
par l'adresse du site. La navigation dans les versions succes- 
sivement archivées se fait également à l'échelle du site dans 
le cadre de ce que Anat Ben-David et Hugo Huurdeman 
désignent comme une « single URL approach [approche par 
URL unique] » (Ben-David et Huurdeman, 2014). 

Bien entendu, une navigation au fil des liens est pos- 
sible entre les sites archivés, mais sans garantie que les liens 
aboutissent. 

Ce régime d'interaction avec l'archive qui est fondé sur la 
double métaphore de la bibliothéque et de la toile n'est pas 
sans poser des problémes. Le premier d'entre eux, comme le 
souligne Megan Ankerson, est probablement l'importance dis- 
proportionnée donnée au facteur temporel dans une sorte de 


5. Pour accéder à la Wayback Machine: https://archive.org/web/. 
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voyage « chrono-touristique » qui s'impose au chercheur au 
sein des archives (Ankerson, 2015b). La Wayback Machine 
ne se prive pas de faire reposer sa communication sur l'invi- 
tation à un « voyage dans le passé » mis en avant jusqu'à son 
interface, surmontée par le slogan « Explore more than 345 
billion web pages saved over time ». 

Ces biais introduits par l'interface et les conditions de col- 
lecte des données, les institutions responsables de l'archivage 
ont tenté de les pallier. 

La premiére étape a consisté à mettre à disposition des 
chercheurs, souvent aprés consultation de la communauté 
des utilisateurs comme à l'Ina ou à la BnE des outils sup- 
plémentaires d'interprétation et d'interrogation des sites 
archivés. 

Le plus attendu a probablement été la possibilité d'une 
interrogation en plein texte? des ressources archivées qui 
permet d'échapper à une consultation où domine la « single 
URL approach ». Les archives portugaises, françaises (Ina et 
BnF) ou encore britanniques et japonaises y ont recours. 

Cette possibilité enrichit l'expérience de navigation à 
deux titres au moins. D'abord, la recherche en plein texte 
permet de thématiser des recherches qui n'auraient pu 
aboutir par une consultation « à la main » des sites, l'un aprés 
l'autre. C'est une étape fondamentale dans la constitution 
des corpus de recherche et l'émergence de nouveaux objets. 
Ensuite les résultats obtenus permettent des tris multiples 
(dates, occurrences d'un terme, d'une expression, présence 
d'un type de ressources, etc.). 

Derniére étape en date de l'évolution des interfaces, 
la mise en place d'une multitude de « surcouches » de 
recherche et de manipulation des données qui permettent 
d'exploiter l'archive et d'en rendre compte sous une forme 
particuliére. En Grande-Bretagne, le moteur Shine’ permet 
par exemple de soumettre les résultats d'une recherche à 
un traitement statistique et de générer une représentation 
sous une forme proche de Google Ngram. L’archivage 


6. Larecherche en «plein texte » est ici employée pour traduire l'anglais « full- 
text search ». 
7. https://www.webarchive.org.uk/shine. 
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des réseaux socionumériques par la BnF et l'Ina permet le 
traitement des métadonnées associées aux messages collectés 
et donne la possibilité d'interroger les données collectées de 
manière croisée (par exemple par mot-diése et langue ou date, 
etc.) et de représenter les résultats de multiples facons : frises 
chronologiques, nuage de mots, liste d'emojis les plus utilisés, 
etc. 

Enfin, des initiatives émergent en périphérie d'Internet 
Archive et des grandes institutions d'archivage pour donner 
accés à des outils permettant de nouvelles exploitations des 
données sauvegardées. Citons par exemple Internet Archive 
Wayback Machine Link Ripper? qui permet de retrouver 
toutes les URLs archivées dans Internet Archive à partir d'une 
URL connue ;WebART (pour Web Archives Retrieval Tools) 
qui est un ensemble d'outils et d'interfaces de recherche 
proposé par l'équipe Dutch Web Archive de la bibliothéque 
nationale des Pays-Bas et le Centrum voor Wiskunde en 
Informatica de l'université d’ Amsterdam”, parmi lesquels on 
trouve WebAR tist, un moteur de recherche en plein texte 
capable de prendre en compte les temporalités pour retrou- 
ver un texte ou une image ; ou encore Wayfinder de Megan 
Dougherty qui permet de personnaliser son interface de 
recherche dans les archives du Web en complément de la suite 
WebArchivist (Dougherty, 2017). 


Des outils d'analyse 


Si la recherche par mots-clés peut sembler indispensable à des 
chercheurs, habitués, comme le grand public, aux moteurs 
de recherche et au plein texte, la fourniture de ces fonction- 
nalités n'est pourtant pas une évidence. C'est seulement en 
2016 que la BnF va implémenter une recherche en plein texte 
dans ses archives du Web des années 1990, puis dans sa collecte 
des attentats de 2015, et permettre une recherche avancée 
par mots-clés, dates, auteurs ou types de formats (.html, .pdf, 


8. https://tools.digitalmethods.net/beta/internetArchiveWaybackMachineLin- 
kRipper. 
9. http://www.webarchiving.nl/news. 
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etc.) en adaptant le moteur de recherche utilisé par la British 

Library, Shine. D'autres indexations sont en cours, mais une 

partie de la collection de la BnF reste interrogeable seule- 

ment en connaissant l'URL du site recherché. La Wayback 

Machine d'Internet Archive ne fournissait pas non plus de 

recherche autre qu'une recherche par URL jusqu'à une 

période récente. Sa recherche par mots-clés comporte par 
ailleurs le biais de ne fouiller que les pages d'accueil des sites 
archivés. 

Deux remarques s'imposent : 

* la première est qu'il faut composer avec des archives en 
constante évolution, tant par leur mode d'archivage que 
d'interrogation. Les outils et fonctionnalités offerts par 
les organisations évoluent au cours méme d'un projet 
et peuvent rendre caduques des méthodologies ou les 
faire évoluer. Ainsi notre projet Web90 a commencé en 
2014 sans autre possibilité de consultation des archives 
des années 1990 que la recherche par URL (à part pour 
celles conservées à l'Ina, qui avaient déjà une recherche 
en plein texte). Quand, en 2016, la recherche en plein 
texte devient possible, aux heures passées à chercher 
des sites susceptibles de fournir des informations sur un 
sujet précis succède une quasi-instantanéité d'acces à 
des résultats plus variés et détaillés — sans toutefois faire 
disparaitre les biais documentaires, puisque ces résultats 
comportent des choix introduits dans la conception du 
moteur de recherche. 

* la seconde est le souci des institutions de valoriser ce pa- 
trimoine nativement numérique, de le rendre exploitable 
en fournissant des outils de fouille. Plusieurs éléments 
expliquent ce choix. Comme le note Thomas Drugeon 
(DL Web Ina), le chercheur ne peut pas partir avec les 
données, les sortir des enceintes des bibliothéques en 
France. Les outils d'analyse se doivent donc aussi d'étre 
disponibles dans l'enceinte de consultation, et ils sont 
parfois nécessaires pour permettre la lisibilité de plu- 
sieurs milliers d'éléments (sites, pages, hashtags, etc.) ou 
les mettre en relation (par exemple au travers d'une re- 
cherche linguistique). Si les archives d'Internet Archive 
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sont en ligne et si on peut avoir le sentiment de pouvoir 

utiliser plus d'outils ou de les choisir, l'accés aux fichiers 

WARC" n'est pas acquis, et des contraintes techniques 

(mais aussi économiques) peuvent se poser. 

L'évocation des fichiers WARC renvoie à des pratiques 
de traitement de données et métadonnées standardisées 
par le moyen d'outils informatiques (logiciels d'analyse 
lexicographique par exemple) qui s'apparentent à ce que 
Franco Moretti a qualifié de distant reading (lecture distante), 
proposant : 


« What we really need is a little pact with the devil: we 
know how to read texts, now let's learn how not to read 


them". » (Moretti, 2013) 


Loin de constituer la seule forme de lecture possible des 
archives du Web, la lecture distante permet toutefois dans le 
cadre de grands corpus d'avoir un aperçu que les capacités 
humaines de lecture ne permettent pas. 

Les archives du Web passent ainsi sous le « macroscope 
historien » (Graham et al., 2015). Des outils d'analyse en 
accés ouvert comme Iramuteq ou Gephi, ou développés 
par les institutions (pour produire par exemple des timelines, 
des diagrammes représentant les emojis ou images les plus 
tweetés dans les archives de l'Ina) permettent d'entrer dans les 
masses documentaires, par le contenu textuel, mais aussi par 
les images, les émoticónes ou encore les hashtags pour Twitter. 

La lecture distante a été notamment utilisée pour la recons- 
truction de Geocities par Ian Milligan (2012-2017). Il a par 
exemple extrait des images afin de mesurer les promiscuités 
et récurrences visuelles au sein de ce service de pages per- 
sonnelles particuliérement populaires dans les années 1990. 


10. Le format WARC (Web ARChive), largement adopté depuis le milieu des 
années 2010, en remplacement de son prédécesseur, le format ARC, permet 
d'établir des standards en matiére de collecte et de stockage des données hété- 
rogénes présentes sur Internet. Pour plus de précisions, voir: http://www.bnf.fr/ 
fr/professionnels/dlweb. boite outils/a.dlweb formats fichiers.html. 

1l. «Ce qu'il nous faut, c'est un petit pacte avec le diable: nous savons com- 
ment lire les textes, apprenons maintenant comment ne pas les lire.» (Notre 
traduction.) 
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Les approches inspirées des cultural et des visual studies d' Anat 
Ben-David (reconstruction de noms de domaine disparus tel le 
.yu de l'ex- Yougoslavie, ou analyse de la couleur des domaines 
nationaux, voir Ben-David 2016 ; Ben-David et al.) contribuent 
également à apporter un nouveau souffle (et de la couleur) 
dans un paysage académique qui reste par ailleurs toujours trés 
marqué par des approches linguistiques ou politiques, ce que 
relevaient déjà Dougherty et al. il y a quelques années (2010). 

Outre le développement d'outils au sein du monde de la 
recherche, qui doit permettre aux chercheurs d'accéder à de 
plus en plus de boites à outils (voir par exemple The Archives 
Unleashed Project"), les bibliothèques ont également déve- 
loppé des plateformes de consultation, que ce soit la British 
Library, la BnE la Bibliothèque royale du Danemark ou l'Ina. 
Elles sont susceptibles de prendre en charge l'outillage de la 
recherche à toutes les phases de celle-ci, depuis la recherche 
dans les fonds (recherche avancée, sélection par facettes de 
dates, noms de domaine, etc.), puis l'analyse (chronologies, gra- 
phiques, statistiques, représentations de tendances linguistiques 
sur le modéle de Google Ngram) jusqu'à la préservation, voire 
le partage du corpus. 

Élargissant la thématique au-delà des archives du Web, pour 
considérer les données numériques susceptibles d'étre analysées 
au sein de la bibliothèque de manière plus générale, la BnF a 
ainsi lancé une enquéte prospective en 2017 pour préfigurer 
un nouveau service de fourniture de données à destination 
de la recherche, appelé provisoirement Laboratoire d'étude et 
d'analyse de corpus numériques (Moiraghi, 2018). Un autre 
exemple récent de ces efforts est fourni par la réalisation à la 
Bibliothéque royale danoise d'une nouvelle interface (voir « A 
wayback machine for the UKWA Solr based warc-indexer 
framework? ») incluant, de la recherche à la visualisation des 
résultats, de multiples fonctionnalités, type cartographie interac- 
tive de liens ou encore localisation des images et temporalités 
des collectes. 


12. https://archivesunleashed.org. 
13. Pour un descriptif et des captures d'écran de l'interface du projet, voir 
https://github.com/netarchivesuite/solrwayback. 
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La situation du chercheur en 2018 face aux archives du Web 
n'a ainsi plus rien à voir avec celle du début de la décennie. Reste 
que ces outils, s'ils peuvent simplifier la recherche, impliquent 
aussi de penser les biais et la couche de médiation supplémen- 
taire qu'ils introduisent. Les travaux de Noortje Marres (2012, 
2015), de Bernhard Rieder et Theo RGhle (2012) notamment, 
ont montré que le chercheur en sciences sociales doit conserver 
une distance critique face aux « présupposés épistémologiques 
contenus dans les outils » (Mabi, Plantin et Monnoyer-Smith, 
2014). 

On rappellera à cet égard les réflexions stimulantes d'Anat 
Ben-David et Hugo Huuderman sur les moteurs de recherche 
dédiés aux archives du Web (2014), ou de Megan Ankerson 
(20152) sur les interfaces de consultation des archives du Web. 
Les outils d'analyse donnent également matière à réflexions 
méthodologiques, par exemple dans les travaux liés à la recons- 
truction de Geocities (Milligan, 2017) ou de domaines natio- 
naux (Brügger, 20172 ; Brügger, Laursen et Nielsen, 2017). 

Dans le panorama des différents outils d'exploitation des 
archives du Web, une situation particuliére s'est présentée lors des 
collectes « d'urgence » qui ont suivi les attentats parisiens autour 
de Charlie Hebdo et ceux du 13 novembre 2015 : elle a amené la 
BnF et l'Ina à questionner leurs outils. En effet, si d'importants 
moyens techniques et humains ont été mis en ceuvre lors de la 
collecte, la nécessité d'outils d'analyse performants s'est posée 
clairement face à ces collectes de grande ampleur. 

La BnF a ainsi fait le choix de tester l'implémentation de la 
recherche en plein texte dans son corpus ;l'Ina a, de son côté, 
travaillé à fournir des outils, notamment de visualisation, pour 
exploiter les données et métadonnées du sien". Les entretiens 
menés avec les porteurs de ces initiatives institutionnelles 
révèlent que celles-ci se trouvent souvent face à une tension : 


« dans la majorité des cas, les usagers qui viennent 
consulter un fonds du dépót légal du Web le consi- 
dérent comme un fonds parmi d'autres au sein de 


14. Parmi les fonctionnalités proposées: la possibilité de croiser plusieurs élé- 
ments tels des mots-diéses, mots-clés, statistiques de langues ou encore nombre 
de retweets. 
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leurs recherches, ils ne vont pas dépenser une énergie 
énorme pour comprendre les limites. Mais certains 
vont chercher à aller plus loin. Nous sommes tiraillés 
entre ces besoins pointus et ceux de la majorité des 
usagers, pour lesquels il ne faut pas trop spécialiser 
l'outil, sinon il devient incompréhensible". » 


À n'en pas douter, en fournissant à la fois les données et les 
outils pour les exploiter, les institutions d'archivage assument 
un róle central. Le chercheur se doit donc de déployer une 
vigilance et un effort pour comprendre à la fois les apports et 
biais des corpus, mais aussi ceux des outils fournis, en gardant 
à l'esprit que la neutralité des données comme celle des outils 
est illusoire (Plantin et Monnoyer-Smith, 2013). Dans le méme 
temps, la mise en place de projets de recherche qui permettent 
aux chercheurs de signaler des URLs à archiver au moyen de 
l'outil BnF Collecte du Web, ou des ateliers du DL Web Ina, 
montre une attention aux besoins des chercheurs et aux contri- 
butions qu'ils peuvent apporter dans le cadre de l'exploitation 
du patrimoine numérique ; les institutions cherchent à penser 
leurs publics et saisir leurs demandes parfois trés différentes. 


Penser l'archive du Web en contexte 


Figure 1- Méme circulant largement sur la Toile 


Google | how do I convert to 4 [e] 


how do i convert to judaism 
how do i convert to islam 

how do i convert to catholicism 
how do i convert to pdf 


Press Enter to search 


15. Entretien avec Thomas Drugeon (responsable du DL Web à l'Ina), mené par 
V. Schafer et M. Borelli le 21mars 2016 (https://asap.hypotheses.org/tag/ina). 
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Un mème" valant parfois mieux qu'un long discours, celui 


qui illustre ce début de section rappelle combien la prise en 
compte du contexte se révèle indispensable pour prétendre à 
une réelle compréhension de l'archive numérique. 

Bien que vrai en soi puisque ce méme reproduit le résultat 
d'une recherche réellement effectuée et devenue virale, son 
propos ne l'est qu'à l'aune du rapprochement des différentes 
requétes des utilisateurs fait par le moteur de recherche de 
Google. 

L'archive du Web est issue d'un contexte global de 
production. La grande simplicité de la structure des sites des 
premiéres années du Web (des années 1990 au début des 
années 2000 dans la majorité des pays occidentaux) nous 
rappelle par exemple de quel poids pesaient encore les offres 
d'abonnement à la minute sur la consultation et par conséquent 
sur l'offre informationnelle proposée à l'internaute. Associée 
aux débits offerts par les modems de l'époque, cette structure 
des coüts de consultation explique en partie la faible profondeur 
des sites et la place marginale des images qui ne peuvent en 
conséquence étre analysées hors de ces contraintes externes au 
Web lui-méme. 

Dans le contexte actuel, la production des contenus « générés 
par les utilisateurs » (user-generated content) est aussi influencée, 
dans une large mesure, par les dispositifs eux-mémes qui 
récoltent, traitent et analysent ces données, invitant en outre à 
aimer, retweeter, etc. L'activité « dynamique » et automatique 
de nombre d'outils web, notamment de robots, doit également 
étre prise en compte pour cerner la complexité du Web 
contemporain. 

$i l'on pousse plus loin la prise en compte des agents 
techniques, ce qui apparait à la surface de la page n'est que 
le rendu visuel d'un ensemble de codes informatiques. Ces 
derniers, à commencer par le .html, contiennent non seulement 
la trace des opérations de formatage des données et des logiciels, 
mais aussi des informations qui peuvent aller au-delà des 
paramétres techniques et relévent des contextes de production. 


16. Un méme internet est un élément de contenu (sous la forme de texte, image 
fixe ou animée, ou encore son, et selon des formats très divers) repris et décliné 
massivement sur la Toile (parfois transformé d'un format à un autre). 
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Il faut également faire une place aux contextes de réception 
des sources archivées. L'analyse quantitative de Twitter nous en 
donne un exemple saisissant. Comment juger de l'importance 
d'un tweet ou d'une série de tweets ? Faut-il l'analyser à 
l'aune de sa place dans l'espace de communication du réseau 
(ses retweets, ses likes, etc.) ? Selon quelle métrique ? Faut-il 
éventuellement s'ouvrir à une dimension plurimédiatique en 
soulignant que certains messages, du fait de la notoriété de leur 
auteur ou de son ancrage dans une communauté spécifique, 
connaissent un écho important hors du réseau lui-méme (on 
pense en particulier aux relais que les journalistes offrent à cer- 
tains messages dans un article, un journal télévisé, une émission 
de radio dont les printemps arabes ont été un exemple poussé 
jusqu'à absurde") ? Impossible de décontextualiser totalement 
l'analyse pour faire du tweet un élément parmi d'autres. Bien 
entendu, la lecture distante propose une autre approche des 
corpus en faisant émerger des relations entre entités et groupes. 
Mais elle ne peut faire l'économie de la lecture attentive (close 
reading), sous peine de décontextualisation. Rendre compte 
d'un contexte global, ce n'est pas se tenir à distance, c'est rendre 
compte d'un va-et-vient entre les échelles de lecture et de 
compréhension d'un corpus. 

Le contexte de réception est aussi fortement influencé par 
la structure en réseau du Web et de ses archives. La viralité des 
informations, leur reprise et leur modification entre sites et 
méme entre pages est un élément d'appréciation de contexte 
important, comme le souligne Clément Oury (2012). Leur 
instabilité et leur volatilité en sont un autre, non négligeable. 
Une consultation des archives gagne à inclure une réflexion sur 
ce qui n'est pas archivé, ou ce qui risque de ne pas l'étre. Une 
page web avec une série de liens vers des documents non archi- 
vés travaille la suggestion, l'évocation — voire la frustration du 
lecteur. Le chercheur doit travailler « en creux », multiplier les 


17. Quand l'Occident relaie les contestations qui émergent à partir de fin 2010 
en Tunisie, le róle d'Internet et des réseaux sociaux fait l'objet d'analyses enthou- 
siastes qui relévent souvent du solutionnisme technologique (Morozov 2014), 
c'est-à-dire d'une pensée qui préte aux nouvelles technologies la capacité à 
résoudre tous les grands problémes, de la faim dans le monde à la maladie. Les 
espoirs sont rapidement décus questionnant l'impact réel des mobilisations en 
ligne (Bortzmeyer, 2016). 
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sources et ne pas s'en tenir à l'illusion d'une archive universelle 
et exhaustive. Au-delà des archives web, la presse spécialisée, des 
entretiens oraux ou les archives audiovisuelles livrent ainsi de 
multiples pistes pour reconstituer l'histoire du Web (Schafer, 
2015). 

Enfin, le contexte d'archivage informe sur le traitement 
donné à l'archive du Web. Une collecte n'est jamais une sauve- 
garde neutre des données : c’est une construction d'événements 
préjugés. Lorsqu'une collecte est décidée pour documenter un 
événement, une période ou un sujet d'intérét, un ensemble de 
critéres est mis en place pour sélectionner ce qui sera conservé. 
Comme l'archiviste le fait avec les masses de papier qui lui par- 
viennent, sans en prendre exhaustivement connaissance, un tri 
est effectué a priori. Ainsi, il a été choisi par les institutions fran- 
caises d'archivage de poursuivre un objectif de représentativité 
et non d'exhaustivité en matiére de conservation des sites des 
partis durant les campagnes électorales : les sites des petits partis 
aux extrémités du spectre politique sont conservés pour que 
l'ensemble soit représentatif des équilibres du spectre et non du 
poids respectif des formations en ligne. 

Outre-Atlantique, d'autres considérations commencent à 
entrer en ligne de compte. Notamment sur le plan politique, 
certains acteurs entendent créer dans les corpus conservés une 
dimension « non oppressive », c'est-à-dire faire une place clai- 
rement identifiée et assumée à des groupes et des individus 
minoritaires au sein de la société et des flux de données en 
ligne. Le projet Documenting the Now18 organise ainsi depuis 
2016 une collecte des archives de Twitter selon des thématiques 
choisies en matiére de genre, de critéres « ethno-raciaux » 
anglo-saxons (dans le cadre entre autres du mouvement Black 
Lives Matter) ou de diversité culturelle. 

Cette question des équilibres et de la représentativité est bien 
entendu critique pour les institutions en charge de la conserva- 
tion, et pose des questions de fracture numérique, comme on a 
pu le montrer précédemment. Les faiblesses de la représentation 
en ligne des Suds (Gomes et al., 2011) préoccupent l'IIPC. Les 
archivages des domaines .ao et .cv (angolais et cap-verdien) 


18. https://www.docnow.io. 
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par les institutions portugaises en vertu de l'histoire coloniale 
du pays questionnent quant à eux les logiques éventuelles 
d'appropriation culturelle que risquent de faire émerger ces 
pratiques. 

Si cette question de la bonne pratique en matière de 
construction des collections n'est pas tranchée et ne le sera 
probablement jamais de maniére totalement satisfaisante, la 
participation des usagers des archives semble constituer une 
voie féconde d'amélioration. Cette association des chercheurs 
et des usagers au processus de collecte et aux régles qui la 
gouvernent se multiplie, à l'image des pratiques de la BnF et 
de l'Ina. Bien entendu, cette inclusion n'est pas nouvelle : de 
Michelet, chef de la section historique aux Archives nationales, 
à Jean-Noël Jeannenet, président de la Bibliothèque nationale 
de France, l'historien en particulier a toujours eu à coeur de 
participer aux politiques de conservation de son temps par la 
coconstruction des contextes d'archivage. 

Les divers enjeux posés par les contextes de production, 
de réception et d'archivage illustrent la multiplicité des pro- 
blématiques qu'il s'agit d'entrelacer au coeur des analyses qui 
prennent l'archive du Web comme support. Loin de boulever- 
ser les règles traditionnelles de l'analyse, le contexte continue 
d'enrichir la compréhension du contemporain et, demain, 
d'un passé dont les traces sont d'ores et déjà lisibles en ligne. 


UNE RECHERCHE AUX 
INTERFACES 


Les éléments qui précédent ont permis de montrer l'extréme 
variété des archives du Web, l’intrication d'enjeux techniques, 
politiques, sociaux et économiques qui influent sur les fonds 
constitués et mis à disposition. À la variété des archives répond la 
variété des méthodologies et approches, aussi vaste que le champ 
des questionnements qui peuvent prendre l'archive du Web pour 
objet. 


Les archives du Web, quels publics ? 


Fin 2010-début 2011 la délégation à la Stratégie et à la Recherche 
de la BnF lancait une enquéte qualitative auprés de publics poten- 
tiels des archives du Web (Chevallier et Illien, 2011). Elle iden- 
tifiait alors trois profils :les chercheurs (en histoire, philosophie 
et sociologie des sciences et des techniques notamment), ensuite 
les professionnels (avocat, consultant marketing, documentaliste, 
ingénieur brevet, journaliste), enfin le tout-venant de la bibliot- 
héque de recherche. 

Une enquéte en ligne menée notamment auprés des 
chercheurs autour des ateliers du DL Web Ina montrait quant à 
elle en 2011 : 


« [...] encore une certaine défiance [de leur part] autour 
des critéres de fiabilité, d'autorité et d'instabilité. Les 
rares pratiques d'archivage étaient en prise directe avec le 
Web vivant (bookmarks, screencast'...) ou bricolées d’après 
un modèle imprimé (.pdf), sans stratégie archivistique 
ou documentaire. » (Merzeau et Mussou, 2017) 

1. Les bookmarks sont des systémes de marque-pages ou favoris permettant de 


retrouver les pages ou sites jugés intéressants. Quant au screencast, il désigne 
l'enregistrement vidéo numérique de l'affichage d'un écran. 
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L'étude de Meghan Dougherty et al. (2010) avait également 
fourni une base solide de réflexion. Alors que ses auteurs 
notaient le fossé entre la potentielle communauté de recherche 
et sa réalité, bien plus modeste, ils proposaient pour l'élargir 
une série de recommandations qui restent d'actualité, que ce 
soit du tutorat et des formations, des appels à projets, le déve- 
loppement et la mise à disposition d'outils d'analyse, etc. 

Si Chevallier et Illien (2011) notaient surtout des besoins 
ponctuels en 2010-2011,1es quelques années qui nous séparent 
de cette enquéte prospective ont permis de voir un intérét 
croissant pour les archives du Web, dans la recherche comme 
dans les médias, méme si cet intérét ne se lit pas toujours en 
termes de consultation dans les enceintes de la bibliothéque. Et 
le constat dépasse bien sûr les frontières hexagonales. Comme 
le relevait en effet l'historienne britannique Jane Winters 
(20172) : 


« Anyone who works with web archives quickly becomes 
used to the fact that most people have not even heard of them 
— even fewer understand what they are and where you might 
be able to access them. In 2016, however, it seemed as though 
web archives began to filter into the public consciousness, to 
move from the technology pages of the more serious newspa- 
pers to the political and even cultural sections’. » 


L'année 2016 aura-t-elle été celle des archives du Web ? En 
France, comme dans le monde anglo-saxon, ce sujet jusque- 
là plutót confidentiel aura en tout cas fait l'objet d'une large 
couverture médiatique, notamment de la part du Monde, de 
Libération ou encore de L'Express, à la faveur des vingt ans de 
la fondation étatsunienne Internet Archive et des dix ans du 
dépót légal du Web en France’. 


2. «Toute personne travaillant avec des archives web s'habitue rapidement au 
fait que la plupart des gens n'en ont méme pas entendu parler - encore moins 
comprennent ce qu'elles sont et oü y accéder. En 2016, cependant, il semble que 
les archives web commencent à filtrer dans la conscience publique, à passer des 
pages technologiques des journaux les plus sérieux aux sections politiques et 
même culturelles.» (Notre traduction.) 

3. http://bnf.hypotheses.org/1105. 


UNE RECHERCHE AUX INTERFACES | 71 


Cependant une analyse plus fine des publics intéressés, ou 
méme de la croissance de l'audience, reste complexe. Ainsi, 
alors que la croissance des consultations générales d'archive. 
org montre une nette évolution depuis 2009", les archives 
du Web ne sont prises en compte qu'à partir de 2013 dans 
ces données et les statistiques mises à disposition ne sont pas 
toujours aisément interprétables. 

Reste que du côté des bibliothèques, la marge de pro- 
gression de la fréquentation est encore réelle et à attendre 
dans les prochaines années, alors que les premiéres théses 
d'histoire utilisant des archives du Web institutionnelles, à 
l'instar de celle de Sophie Gebeil (2015) sur les mémoires de 
l'immigration maghrébine sur le Web, ont ouvert la voie. Le 
développement de l'accés aux archives du Web en région par 
la BnF et l'Ina garantit la possibilité d'accéder à ces archives 
sur tout le territoire national. 

Siun travail de pédagogie s'impose dans le monde acadé- 
mique et l'enseignement supérieur pour former les étudiants 
et les inciter à consulter ces archives, les institutions d'archi- 
vage ont bien compris qu'elles pouvaient stimuler l'intérét 
par des appels à chercheurs, comme le font la BnE l'Ina ou 
encore la British Library. 

Ainsi le projet The Big UK Domain Data for the Arts and 
Humanities project (BUDDAH)) a-t-il recruté dix jeunes 
chercheurs issus des humanités en 2014 pour leur proposer 
de développer au sein de la British Library des projets de 
recherche fondés sur les archives du Web. En sont ressortis 
des travaux féconds (Winters, 2017), à l'instar de ceux de 
Marta Musso qui a analysé les premiers pas des sites web 
britanniques sur la Toile (Musso et Merletti, 2016). 

D'un point de vue plus qualitatif, les usages et besoins de 
recherche commencent à étre de mieux en mieux cernés, 
que ce soit par des initiatives comme les ateliers du DL Web 
Ina menés par Louise Merzeau et Claude Mussou pendant 


4. https://blog.archive.org/2015/01/26/archive-org-download-counts-of-collec- 
tions-of-items-updates-and-fixes/. 
5. https://buddah.projects.history.ac.uk. 
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six ans^, des rapports comme celui réalisé par le Net Lab danois 
de l'université d' Aarhus (Costea, 2018) ou l'étude prospective 
conduite par la BnF en 2017 (Moiraghi, 2018), méme si les 
besoins sont loin d’être figés et homogènes. 

Enfin il convient, au-delà des publics espérés et souhaités des 
archives du Web, de garder à l'esprit qu'il y a aussi des publics 
exclus des archives du Web. Certains gouvernements ont pu 
couper ponctuellement l'accés à Internet Archive : la Chine 
en 2014, le gouvernement russe en juin 2015 et la Jordanie en 
2017 (Butler, 2017). 

L'utilité des archives du Web dépasse les seules communautés 
de recherche et ces archives peuvent également susciter l'inté- 
rêt citoyen. Les journalistes, les juristes, mais aussi la société 
civile pourraient s'en emparer. Certains ont déjà commencé 
à le faire, comme ceux qui reprennent les tweets fondés sur 
les archives du Web d'Internet Archive qui scandent la prési- 
dence de Donald Trump depuis 2017 aux États-Unis, confron- 
tant sa politique à ses annonces passées et documentant ses 
contradictions. 


Les archives du Web : trading zone 
et objet interdisciplinaire 


Les archives du Web sont le résultat de mobilisations hybrides 
d'innovateurs, d'utilisateurs et d'entrepreneurs, ainsi que d'une 
variété d'experts qui vont des chercheurs aux bibliothécaires et 
archivistes en passant par les informaticiens — chacun avec ses 
outils, attentes et cultures. Elles sont donc à plein titre un objet 
de recherche multi et interdisciplinaire, qui peut bénéficier des 
perspectives de disciplines telles que l'histoire, les sciences de 
l'information et de la communication, la sociologie, les sciences 
du langage, et bien sür l'informatique, ainsi que de domaines 
disciplinaires comme les études sociales des sciences et des 
techniques (en anglais, Science and Technology Studies ou STS), 
ou encore les media studies et la linguistique de corpus. Si ces 


6. Voir le bilan qu'elles en tiraient en 2017 : https://webcorpora.hypotheses. 
org/302. 
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regards portés sur les archives du Web peuvent varier (lecture 
davantage diachronique ou sémiotique, ou encore inspirée par 
les visual studies, etc.), les chercheurs empruntent de plus en 
plus de clés de lecture et d'analyse à d'autres champs, voire se 
retrouvent dans des tendances dépassant les disciplines, à l'instar 
des code studies ou des Internet studies. Des approches dérivées des 
sciences juridiques et politiques peuvent également étre mobi- 
lisées utilement pour explorer les institutions de standardisation 
de l'archivage du Web et leurs alliances, ainsi que les questions 
de droit d'auteur et de régimes de propriété intellectuelle 
applicables aux contenus archivés (voir par exemple Dulong de 
Rosnay et Guadamuz, 2017). 

Les approches relevant des STS, en dialogue avec d'autres 
domaines disciplinaires, sont par exemple fructueuses pour 
appréhender et analyser des aspects qui relévent de la « boite 
noire » des archives du Web. Cette approche permet ainsi de 
penser les « relations de pouvoir » au sens large qui sont inscrites 
dans les archives du Web (Badouard et al., 2016), du róle des 
GAFAM dans la constitution d'archives privées aux missions 
publiques d'institutions patrimoniales, en passant par la place 
des usagers dans les politiques conduites. Les notions de média- 
tion, d'intermédiation, ainsi que celle d'agency (ou puissance 
d'agir?) peuvent être utilement appliquées au Web et à ses 
archives, pour observer des agencements au sein des dispositifs 
qui reflètent ces relations de pouvoir. Comme on l'a vu tout au 
long de cet ouvrage, les négociations humaines et techniques, 
à la fois au niveau de la collecte et de l'exploitation de l'archive 
du Web, incluent plusieurs opérations : des choix de fréquence 
de collecte, de périmétre et de profondeur ; des modalités de 
programmation des robots et des processus de dédoublage des 
données ; l'exclusion d'éléments spécifiques, comme les publi- 
cités ;ou encore la création de plateformes et d'environnements 
de consultation proposant chacun des designs et fonctionnalités 
différents. L'archivage du Web est le résultat du coformatage 
mutuel des contenus et des artefacts, des développeurs et des 
utilisateurs ; il découle d'un ensemble de pratiques et discours 
souvent triviaux et considérés comme acquis, qui jouent 


7. Traduction proposée par Proulx, 2009. 
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pourtant un rôle dans la conception, la régulation et l'entretien 
du Web. Tous ces éléments se doivent d'étre analysés comme 
le résultat des motivations, des choix, des alliances des acteurs 
de l'archivage du Web — et, en méme temps, on ne peut pas 
se priver d'une analyse fine des aspects techniques et parfois 
économiques qui les sous-tendent (Schafer et al., 2016). 

Les archives du Web et le patrimoine numérique peuvent 
également étre explorés à l'aune de la notion d'« objet- 
frontiére », concept proposé par Susan Leigh Star et James 
Griesemer (1989) pour décrire ces processus oü des acteurs 
provenant de différents milieux sociaux et politiques, et appe- 
lés à coopérer, arrivent à se coordonner malgré des points de 
vue divergents, établissant une compréhension mutuelle sans 
pour autant perdre de la diversité et de la richesse des origines 
(Trompette etVinck, 2009, p. 6-7). 

À cet égard, l'archivage du Web peut étre considéré comme 
une zone d'échange (trading zone) au sens de Galison (1997). 
Cette métaphore a été utilisée à l'origine par son créateur afin 
de rendre compte de la maniére dont des physiciens issus de 
différentes écoles arrivaient à collaborer entre eux et avec des 
ingénieurs pour développer des objets techniques complexes 
tels que le radar ou le détecteur de particules. Appliquée aux 
archives du Web, elle révéle aussi toute sa pertinence : ces 
archives sont des objets complexes au croisement non seu- 
lement de plusieurs disciplines, mais de plusieurs figures et 
communautés professionnelles (bibliothécaires, archivistes, 
ingénieurs et chercheurs). 


Tendances de la recherche 


Les recherches sur les archives du Web sont en plein essor, ce 
dont témoignent notamment la constitution du groupe de 
réflexion RESAW? à l'échelle européenne dans la première 
moitié de la décennie 2010, ou encore l'attractivité de 


8. http://resaw.eu. 
On notera avant des publications pionniéres issues du monde de l'archi- 
vage du Web, à l'instar de celle coordonnée par Julien Masanés (2006). 
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manifestations type hackathons, dédiées aux archives du Web 
et organisées plus récemment des deux cótés de l'Adantique. 

Les travaux de recherche ont d'abord été dominés par des 
réflexions méthodologiques, initiées notamment par l'historien 
danois Niels Brügger. Ils ont commencé par souligner les défis 
que représente ce type de matériaux, insistant sur les médiations 
et reconstructions que subissent les archives du Web (Brügger, 
2012b). Ces recherches ont par ailleurs intégré des enjeux dis- 
ciplinaires et interdisciplinaires au fil des années, comme Pil- 
lustrent les réflexions menées sur les liens entre archives du Web, 
Digital Studies et Digital Humanities (Brügger, 2016). Par ailleurs, 
sous l'impulsion de courants de réflexion notamment liés aux 
Science and Technology Studies, des efforts ont également été faits 
pour comprendre la fabrique des archives du Web, comme nous 
venons de l'évoquer (Schafer, Musiani et Borelli, 2016). 

Des enjeux de gouvernance aux enjeux de pouvoir... la 
frontière est évidemment ténue et les cas de censure ou encore 
de suppression d'archives comme celles menées en Grande- 
Bretagne par les conservateurs en 2013 (Winters, 2017b) ont 
également sensibilisé aux enjeux politiques et géopolitiques 
que posent ces archives (Schafer, 2017). Initialement trés 
tournées vers les dimensions et usages internes à la recherche 
(Dougherty et al., 2010), ces réflexions ont dans un second 
temps également été articulées avec des enjeux pédagogiques, 
qui montrent la volonté d'ouvrir ces archives à des publics plus 
larges (Winters, 2017). 

Bien sár les archives du Web ont aussi été insérées dans des 
réflexions épistémologiques et méthodologiques plus géné- 
rales sur le patrimoine numérique (Treleani, 2017 ; Bachimont, 
2017b). Elles bénéficient par ailleurs de réflexions dédiées à 
d'autres types de sources nativement numériques, tels les 
forums de discussion en ligne (Paloque-Bergés, 2018), et de 
la volonté de penser les silences des archives, qui négligent les 
publicités en ligne ou encore les spams, comme l'a montré Finn 
Brunton (2017). 

Des recherches ont essayé d'évaluer les données manquantes 
au regard du Web vivant tel qu'il existait (Huuderman et 
al., 2015 ; Hale, Blank et Alexander, 2017). Différents, mais 
non moins complémentaires des précédents, des efforts ont 
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également porté sur la possibilité de reconstituer des sites 
spécifiques (voir Nanni, 2017 pour le site de l'université de 
Bologne), voire des noms de domaine disparus, à l'instar du 
.yu de l'ex- Yougoslavie, exploré par Anat Ben-David (2016). 
Les archives du Web ont également servi d'appui à des travaux 
visant à retracer l'évolution d'un domaine national spécifique 
(nous pensons ici plus particuliérement aux travaux menés au 
Danemark, voir Brügger, 2017). 

D'autres chercheurs, sans négliger ces dimensions méthodo- 
logiques, sont entrés au cceur des archives pour les exploiter 
au service de sujets de recherche, que ce soit pour étudier 
les cultures numériques et l'histoire du Web lui-méme? ou 
encore pour aborder des sujets généraux mais représentés en 
ligne. C'est le cas par exemple des recherches de Sophie Gebeil 
dédiées aux mémoires de l'immigration maghrébine en ligne 
(Gebeil, 2017), des travaux que consacre Peter Webster (2018) 
à l'histoire des religions en exploitant les archives du Web, et 
de ceux de Richard Deswarte consacrés à l'euroscepticisme 
britannique" tel qu'il a pu se manifester sur la Toile"... 

En France, on notera parmi les travaux précurseurs, à des fins 
historiques ou non, ceux menés autour de Dana Diminescu au 
sein du projet e-diasporas (Diminescu et Loveluck, 2014) ou 
encore par Valérie Beaudouin sur les commémorations de la 
Grande Guerre. Les mémoires en ligne et les commémorations 
semblent aujourd'hui un terrain de recherche où les usages des 
archives du Web sont pleinement assumés, ce dont témoignent 
également les travaux d'Enrico Natale (2017) ou de Frédéric 
Clavert (2018b) sur les commémorations de la Grande Guerre. 

Dana Diminescu et son équipe, comme Valérie Beaudouin 
qui a travaillé dans le cadre d'un projet soutenu par la BnF 


9. Voir notre projet ANR Web90 mené de 2014 à 2018, les travaux de Marta 
Musso et Franco Merletti (2016) sur l'arrivée des sites d'entreprises et commer- 
ciaux britanniques en ligne, ou les travaux de lan Milligan, 2017 sur Geocities. 
10. http://sas-space.sas.ac.uk/6103/. 

1l. Les travaux mentionnés ici ont la spécificité d'utiliser des archives du Web 
institutionnelles. || faut évidemment aussi mentionner les nombreuses et pré- 
coces analyses du Web dans le champ des sciences de l'information et de la 
communication (voir Barats, 2013). Les chercheurs ont alors pour les besoins de 
leur recherche souvent réalisé leur propre conservation des pages web étudiées, 
notamment au moyen de captures d'écran. Ces archives créées par le chercheur 
lui-même sont intéressantes mais sortent du périmètre considéré ici. 
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(Beaudoin et Pehlivan, 2017), avaient précocement assumé une 
approche orientée vers ce que l'on ne qualifiait pas encore plei- 
nement de Digital Humanities, mais qui déjà tirait parti des possi- 
bilités d'utiliser des outils d'exploration et de cartographie de la 
Toile, travaillant également à les inspirer et les enrichir (on pense 
ici à Gephi"? par exemple). En parallèle, d'autres chercheurs ont 
privilégié des approches plus « micro », à l'instar de Sophie 
Gebeil ou de nos travaux au sein de l'équipe Web90 (Schafer, 
2018) invitant à penser autant « the Historian's Macroscope » 
(Graham et al., 2015) que le microscope, et rappelant que : 


« [...] that simply because collections of digital material are 
in many cases big data, which opens the possibility of asking 
and answering new types of research questions, this does not 
necessarily mean that they have to be approached as Big 
Data". » (Brügger, 2015, p. 11) 


Quels enjeux éthiques et déontologiques ? 


Si les archives du Web soulévent des enjeux en termes de 
recherche, elles ne sont pas sans poser également des questions 
éthiques et déontologiques, que ce soit aux archivistes ou aux 
chercheurs. Parfois trop rapidement assimilées à un débat entre 
droit à la mémoire et droit à l'oubli, ces questions renvoient 
en fait à une réalité plus complexe (Dulong de Rosnay et 
Guadamuz, 2017 ; Jones, 2016). Des enjeux politico-éthiques 
se retrouvent ainsi à tous les stades du cycle de gestion, depuis le 
choix de ce qui est préservé jusqu'à l'exploitation des données, 
en passant par leurs conditions d’accés (Pabón Cadavid et al., 
2013). 


12. Gephi nait dans le cadre du projet e-diaspora porté par Dana Diminescu. 
C'est un outil de visualisation de réseaux maintenant largement utilisé dans la 
communauté scientifique. 

13. «[...] le simple fait que ces collections numériques sont souvent des masses 
de données, qui ouvrent la possibilité de leur poser ou de répondre à de nouvelles 
questions, n'implique pas nécessairement pour autant de les approcher comme 
des masses de données.» (Notre traduction.) 
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Luciana Duranti a rappelé, lors de la conférence « The 
Memory of the World in the Digital Age » (Unesco, 2012), les 
interrogations éthiques posées par l'émergence du numérique 
face aux cadres légaux existants. L'affaire WikiLeaks, par exemple, 
révéle une ambivalence des attentes en termes de droit (« conflic- 
ting rights in the digital environment ») alors qu'étaient mises à jour 
des données diplomatiques et militaires. Leur mise à disposition 
publique à travers des archives sauvages pointe trés concrétement 
du doigt la nécessité de repenser des problématiques légales par 
l'éthique et vice versa :le rapport au secret, à la raison d'État et à 
la transparence, la confiance dans les données et les documents, 
leur traçabilité, et leur sécurisation, la délimitation et la redéfini- 
tion du domaine public, la standardisation et la gestion des droits 
d'auteur et des personnes... 

Ces préoccupations se sont manifestées lors de journées 
d'étude et de conférences récentes, par exemple lors des initia- 
tives de la Bibliothèque du Congrès en 2016'* et du National 
Forum on Ethics and Archiving the Web" de mars 2018. 

Elles accompagnent un mouvement de réflexion plus large 
sur l’utilisation des données, des blogs, des forums, des sites. Aussi 
peuvent-elles s'appuyer sur toute une production, notamment 
dans le champ des sciences de l'information et de la communi- 
cation, sur le statut public ou privé des échanges en ligne, leur 
publicisation et mise en visibilité, les enjeux d'anonymisation 
ou encore de consentement, notamment étudiés par Guillaume 
Latzko-Toth et Madeleine Pastinelli (2013) ou Christine Thoér, 
Florence Millerand et al. (2012). Si, comme le notent Madeleine 
Pastinelli et Guillaume Latzko-Toth, « la frontiére naguére 
intuitive entre ce qui reléve de la vie privée et de l'expression 
dans la sphére publique est mise à mal par les nouvelles formes 
d'interaction médiatisée par ordinateur », les traces d'activité 
recueillies sur Internet étant de nature publique dans le cas de 
l'archivage du Web, il convient de dépasser cette dichotomie. Ce 
qui « ne veut pas dire pour autant que le chercheur soit exonéré 
de la responsabilité de veiller au bien-étre des personnes qui sont 
l'objet de la recherche et, surtout, de se soucier d'éviter de leur 


14. Voir http://www.loc.gov/loc/kluge/news/save-web-2016.html. 
15. http://rhizome.org/editorial/2017/oct/24/open-call-national-forum-on-ethics- 
and-archiving-the-web/. 
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nuire. Et sur ce plan, la question qui se pose n’est ni celle de 
l'accessibilité des informations, ni celle des attentes des acteurs, 
mais bien plutót celle du degré de publicité des informations et 
de l'effet qu'est susceptible d'avoir l'intervention du chercheur 
sur cette publicité » (Latzko- Toth et Pastinelli, 2013). 

La tendance générale se fonde, depuis le début des années 
2010 (Latzko- Toth et Proulx in Barats, 2013), d'une part sur 
l'attention accrue à la maniére dont les utilisateurs du Web 
percoivent leur propre production de contenus et de traces 
sur les réseaux (contre l'idée d'un statut « pseudo-objectif 
de leurs écrits ») ; d'autre part sur le respect d'une « intégrité 
contextuelle », c'est-à-dire la prise en compte du contexte de 
la production (par opposition au fait de tenter de deviner les 
intentions des producteurs). Ces postures ont été introduites et 
travaillées de manière pionniére par la communauté des Internet 
studies, qui a rassemblé depuis 2012 des préconisations d’utili- 
sation éthique des données, documents et matériaux issus du 
Web dans des chartes et des guides sous l'égide de l’ Association 
of Internet Researchers (AOIR.) 5. Les préconisations en faveur 
d'une éthique de l’utilisation des données ont à voir aussi bien 
avec la promotion d'une déontologie du chercheur (et des mis- 
sions patrimoniales de long terme des institutions) qu'avec la 
critique de la récupération de ces données à visée de profits par 
les entreprises privées, réduisant les données à des marchandises 
(« data as commodity »). 

Pour le chercheur comme pour l'archiviste, la question de 
garder ou détruire, mettre en évidence ou cacher certaines 
informations reléve d'un choix éthique — qui peut se traduire 
par des choix légaux dans les institutions juridiques. Ainsi, le 
droit californien oblige depuis 2013 les fournisseurs d’accés à 
mettre à disposition des mineurs une « gomme numérique » 
(« digital eraser” »). Le droit peut aussi s'opposer aux concep- 
tions plurielles de la valeur de l'archive. Ainsi, l'association des 


16. Par exemple, « AolR: Ethical Decision-Making and Internet Research de 
2012 »: https://aoir.org/reports/ethics2.pdf. Voir plus généralement https://aoir. 
org/ethics/. 

17. Voir l'article de 2013 dans TechCrunch de Gregory Fereinstein sur cette possibi- 
lité offerte aux jeunes de demander à leur FAI la suppression de certains contenus: 
https://techcrunch.com/2013/09/24/on-californias-bizarre-internet-eraser-law- 
for-teenagers/. 
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archivistes français a dû mener bataille contre la Commission 
européenne qui proposait une loi pour la destruction systéma- 
tique des données personnelles dans les archives numériques 
(affaire HEUdataP depuis 2013). 

Ian Milligan, traitant des millions de pages archivées de 
Geocities qu'il étudie, se pose dés lors la question : « How can 
we ethically navigate the records of seven million people? ? » Outre 
qu'il suggère la lecture distante, pour ne pas centrer l'atten- 
tion sur l'individu mais davantage sur la somme de ceux-ci, il 
propose également d'essayer d'évaluer le degré d'attente des 
acteurs face à leurs données personnelles, leur « expectation of 
privacy ». Alors qu'en termes d'éthique l'attention est souvent 
portée sur la protection de la vie privée, des données person- 
nelles, il évoque implicitement le droit à la mémoire face au 
droit à l'oubli. Il souligne en effet : 


« Leaving people out isn't ethical either. 


I feel similarly uncomfortable with leaving the voices of eve- 
ryday people completely outside the historical record when 
there is ample opportunity to include them. Moving to a full 
opt-in process would likely lead to the historical record being 
dominated by corporations, celebrities and other powerful 
people, tech males, and those wanted their public face and 
history to be seen a particular way”. » (Milligan, 2018) 


Ajoutons dans le cadre des archives du Web, mais aussi des 
newsgroups (forums de discussion?) des années 1980-1990, un 
écart temporel entre production et exploitation des données 
qui a des conséquences. Que cela concerne : 


18. «La question qui se pose dés lors est comment pouvons-nous étudier de 
maniére éthique les enregistrements de 7 millions de personnes ? » (Notre tra- 
duction.) 

19. «Laisser les gens à l'écart n'est pas éthique non plus. Je suis tout aussi géné 
à l'idée de laisser les voix des gens ordinaires complétement à l'écart des docu- 
ments historiques quand il y a amplement l'opportunité de les inclure. Le passage 
à un processus d'opt-in complet conduirait probablement à des dossiers histo- 
riques dominés par des sociétés, des célébrités et d'autres personnes de pouvoir, 
des máles tournés vers les technologies, et ceux qui souhaitent que leur figure 
publique et leur histoire soient percues d'une certaine facon.» (Notre traduction.) 
20. Voir par exemple les travaux de Paloque-Bergés (2017, 2018). 
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* la possibilité de retrouver les personnes vingt ans aprés 
et d'obtenir un consentement ; 

* des propos échangés dans le cadre d'une Toile ou de fo- 
rums plus confidentiels alors, mais aussi en une période 
de tâtonnement sur les caractéristiques des échanges en 
réseaux ; 

* des prises de position parfois trés libres et provocatrices 
face aux premières velléités de mise en procès de FAI, 
d'hébergeurs, de censure. Certains des acteurs de ces 
débats ont poursuivi leur carriére dans le domaine du 
numérique et occupent aujourd'hui des positions insti- 
tutionnelles et entrepreneuriales éloignées de leurs pre- 
mières prises de position ; 

* le peu de recours au pseudonymat, mal perçu dans les 
premiers échanges sur les newsgroups. 

Ces éléments impliquent des précautions au stade de 
l'analyse et de la diffusion de la recherche. La question de 
la diffusion pose aussi celle de la transparence en matiére de 
création ou de partage de corpus. S'il est ainsi possible de 
référencer les archives, il est difficile d'une part de les repro- 
duire, de les partager (par exemple dans le cadre du dépót 
légal francais) et l'accessibilité des archives dans la Wayback 
Machine ne garantit pas non plus le droit de reproduction/ 
réutilisation, en raison des questions de droits d'auteur 
(Milligan, 2016). 

Défini par l'Unesco dans l'article 9 de sa charte sur la 
conservation du patrimoine numérique comme un patri- 
moine culturel devant étre conservé et rendu accessible 
pour donner au fil du temps une image équilibrée et 
équitable de tous les peuples, nations et cultures (Schafer, 
Musiani et Borelli, 2017), le patrimoine numérique auquel 
appartiennent les archives du Web risque-t-il par ailleurs de 
reproduire une fracture numérique Nord/Sud (Gomes et 
al., 2011) ? Comme nous l'avons précédemment évoqué, les 
membres de l'IIPC sont presque tous issus des pays les plus 
développés. Si les archives portugaises collectent, en vertu de 
l'héritage historique du pays, les .ao et .cv (Angola et Cap- 
Vert), certains pays ou régions du Monde (Inde, Afrique, 
Moyen-Orient) ne disposent pas encore d'archivage du Web 
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structuré. La situation évolue rapidement : le Chili, l'Afrique 
du Sud,la Chine ou encore la Malaisie ont pris des initiatives 
en ce sens par exemple. Mais le constat et les préconisations de 
Nicholas Taylor fin 2015 restent valables : 


« The institutional membership of the IIPC, the comparati- 
vely high degree of professional activity in North America and 
Western Europe, and perhaps even the distribution of archival 
coverage in the Internet Archive Wayback Machine suggest 
that the opportunity gap may not just be in the volume of 
preserved content but also its diversity. [...] 


All of which is to highlight the need for community efforts to 
both expand the base and enhance the capacity of web archi- 
ving organizations, through a combination of interoperating 
local tools and/or third-party systems?!. » (Taylor, 2015) 


Notons par ailleurs face aux cas de censure précédemment 
relevés (la Chine en 2014, le gouvernement russe en juin 2015, 
en 2016 la Jordanie) que ces exemples ne doivent pas nous 
sembler lointains : les velléités d'expurger le Web et ses archives 
peuvent aussi se manifester aux États-Unis ou en Europe. Jane 
Winters (2017b) rappelle ainsi l'initiative du parti conservateur 
britannique en 2013 de supprimer de son site dix ans de dis- 
cours et de bloquer l'accés à Internet Archive. 

D'autres enjeux émergent, par exemple lorsque les organi- 
sateurs du National Forum on Ethics and Archiving the Web 
soulignent en 2018 leur souhait de créer des archives plus 
riches, « non oppressives », davantage au service des publics et 
de l'histoire. Depuis au moins les années 2010, des mouvements 
de contestation sociale radicale comme les projets américains 
Occupy et Living Archives avaient en effet soulevé la question 


21. «La composition institutionnelle de l'IIPC, le niveau relativement élevé d'acti- 
vité professionnelle en Amérique du Nord et en Europe occidentale et peut-étre 
méme la distribution de la couverture archivistique dans la Wayback Machine 
d'Internet Archive suggérent que le fossé ne se limite pas au volume de contenu 
préservé, mais aussi à sa diversité. [...] Tout cela pour souligner le besoin d'ef- 
forts communs pour élargir la base et améliorer la capacité des organisations 
d'archivage du Web, grace à une combinaison d'outils locaux interopérables et 
de systémes fournis par des tiers.» (Notre traduction.) 
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non seulement de la documentation, mais aussi de la place des 
populations minoritaires ou opprimées dans cette documenta- 
tion. En effet, les archives numériques, « mémoire numérique 
sociale » (« digital social memory ») sont des outils sensibles et 
ambivalents des problématiques politiques : elles peuvent ser- 
vir de preuves juridiques dans le cadre d’affaires légales, mais 
aussi devenir des porte-voix puissants de causes, des supports 
de mémoires de la communauté a des moments de change- 
ment, de crise, voire de révolution, comme au moment des 
printemps arabes. A contrario, elles pourraient aussi faciliter 
la surveillance et renforcer des logiques de traçabilité, voire 
d'oppression, en permettant de retrouver notamment des prises 
de position politiques, éthiques, religieuses, etc. Les enjeux de 
représentativité des archives sont ainsi posés avec acuité dans 
le projet Documenting the Now, lancé en 2016 et porté par 
plusieurs institutions universitaires des États-Unis. Visant à 
développer notamment une application ouverte permettant 
de préserver, collecter et analyser les contenus de Twitter, ses 
concepteurs revendiquent aussi le souci de lutter contre les 
silences des archives. La page d'accueil du projet s'ouvre sur des 
photographies liées aux manifestations et émeutes de Ferguson, 
suite à l'affaire Michael Brown, jeune Afro-américain abattu en 
aoüt 2014 par un policier, et au mouvement Black Lives Matter. 
Des enjeux de genre et de diversité culturelle ne manqueront 
pas non plus de traverser les problématiques d'archivage. 


CONCLUSION 


En dépit du caractére récent de l'histoire de ses processus de 
conservation, l'archive du Web suscite au sein de la commu- 
nauté scientifique un intérét croissant. En effet, peu d'objets, de 
périmétres d'étude et de réflexions contemporaines peuvent 
aujourd'hui se tenir « hors champ », comme l'aurait dit Louise 
Merzeau, alors méme qu'Internet est devenu le phénoméne 
massif que l'on connaît. À sa mesure, cet ouvrage se propose 
d'étre un jalon pour découvrir, réfléchir et s'approprier l'archive 
du Web. 

D'abord, le patrimoine numérique et nativement numérique 
constitue un élément décisif de notre modernité occidentale. 
Indiscutablement, le Web joue en effet maintenant un róle dans 
nos mémoires individuelles et collectives et sa conservation 
constitue un enjeu patrimonial de premier plan. Les institutions 
qui, en France comme en Europe, ont été chargées de cette 
táche ont su, dans le sillage des pionniers américains, mais à 
leur manière, trouver les moyens de constituer les corpus mis à 
disposition du public et des chercheurs depuis quelques années 
déjà. Collecte difficile, qui s'affronte à une nature particuliére de 
l'archive, remarquable par sa masse impressionnante et toujours 
en augmentation, par les lacunes qu'elle comporte (jusque sur 
les pages archivées elles-mémes) et l'hypertextualité qui relie 
ses différents éléments constitutifs (pages, ressources, etc.). À ces 
caractéristiques propres de l'archive, la patrimonialisation du Web 
ajoute également des questions de représentation au plein sens 
du terme. Les Suds ou les minorités interrogent une organisation 
qui, pour être réellement multi-parties prenantes en intégrant 
notamment une partie de ses utilisateurs dans les processus orga- 
nisationnels et décisionnels, reste majoritairement dominée par 
le Nord économique de la planète et ses représentants. 

Dans ce contexte spécifique de conservation, l'appropria- 
tion de ces nouvelles ressources demande une acculturation 
à ceux qui souhaitent s'y plonger. Au sein des temporalités 
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désarticulées de l'archive et de l'océan de données qu'elle 
représente, de nouvelles méthodes se proposent de mieux 
armer le regard. La lecture distante ou le travail sur les méta- 
données interrogent le fonctionnement des disciplines qui 
souhaitent intégrer l'archive du Web dans leurs travaux. Ces 
méthodologies prolongent les questions traditionnelles du 
rapport entre analyses qualitatives et quantitatives des données 
de la recherche, mais également celles concernant la montée 
en compétences du chercheur dont on attend de plus en plus 
qu'il soit capable de pénétrer les logiques techniciennes de 
constitution des corpus étudiés. 

Enfin, l'archive du Web est l'occasion de repenser en 
contexte les principaux enjeux éthiques liés à l'oubli, au res- 
pect de la vie privée et de la volonté de l'utilisateur, et ce, dans 
une perspective diachronique. La question de la représenta- 
tivité dans le domaine de la conservation ou celle du respect 
de l'anonymat constituent autant d'enjeux déontologiques à 
débattre dans le cadre d'une pratique collective de l'archive 
et de construction de la mémoire de nos pratiques en ligne. 

C'est sur ces multiples pistes de réflexion que cet ouvrage a 
souhaité lancer son lecteur, libre à lui de les suivre ou méme 
d'en tracer de nouvelles. 
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